Categorical-Data
使用線性 SVM 混合連續和二進制數據?
所以我一直在玩 SVM,我想知道這是否是一件好事:
我有一組連續特徵(0 到 1)和一組轉換為虛擬變量的分類特徵。在這種特殊情況下,我將測量日期編碼為一個虛擬變量:
我有 3 個時期的數據,我為它們保留了 3 個特徵編號:
20:21:22:
因此,根據數據來自哪個時期,不同的特徵將被分配 1;其他人將得到 0。
SVM 是否可以正常工作,或者這是一件壞事?
我使用 SVMLight 和線性內核。
只要您進行一些預處理,SVM 就會同時處理二進制和連續變量:所有特徵都應該被縮放或標準化。在這一步之後,從算法的角度來看,特徵是連續的還是二元的並不重要:對於二元,它看到的樣本要么“遠”,要么非常相似;對於連續值,也有中間值。內核與變量的類型無關。