Categorical-Data

可以為 SVM(支持向量機)混合分類數據和連續數據嗎?

  • February 21, 2013

我有一個像

+--------+------+-------------------+
| income | year |        use        |
+--------+------+-------------------+
|  46328 | 1989 | COMMERCIAL EXEMPT |
|  75469 | 1998 | CONDOMINIUM       |
|  49250 | 1950 | SINGLE FAMILY     |
|  82354 | 2001 | SINGLE FAMILY     |
|  88281 | 1985 | SHOP & HOUSE      |
+--------+------+-------------------+

我將它嵌入到一個 LIBSVM 格式的向量空間中

+1 1:46328 2:1989 3:1
-1 1:75469 2:1998 4:1
+1 1:49250 2:1950 5:1
-1 1:82354 2:2001 5:1
+1 1:88281 2:1985 6:1

特徵指標:

  • 1是“收入”
  • 2 是“年”
  • 3 是“使用/商業豁免”
  • 4 是“使用/CONDOMINIUM”
  • 5是“使用/SINGLE FAMILY”
  • 6 是“使用/SHOP & HOUSE”

可以用這樣的連續(年份、收入)和分類(使用)數據來訓練支持向量機(SVM)嗎?

是的!但也許不是你說的那樣。在我的研究中,我經常使用諸如遞歸分區之類的算法從連續值的特徵中創建分類特徵。我通常將此方法與支持向量機的SVMLight實現一起使用,但我也將它與 LibSVM 一起使用。您需要確保在訓練和分類期間將分區分類特徵分配到特徵向量中的特定位置,否則您的模型最終會變得一團糟。

**編輯:**也就是說,當我這樣做時,我將向量的前 n 個元素分配給與遞歸分區的輸出相關的二進制值。在二元特徵建模中,您只有一個由 0 和 1 組成的巨大向量,因此模型看起來一切都相同,除非您明確指出不同特徵的位置。這可能過於具體,因為我想大多數 SVM 實現都會自行執行此操作,但是,如果您喜歡自己編程,可能需要考慮一下!

引用自:https://stats.stackexchange.com/questions/50474

comments powered by Disqus