Svm
支持向量機是否對屬性之間的相關性敏感?
我想訓練一個支持向量機來根據 20 個屬性對案例(真/假)進行分類。我知道其中一些屬性是高度相關的。因此我的問題是:SVM 是否對特徵之間的相關性或冗余敏感?有什麼參考嗎?
**線性核:**這裡的效果類似於線性回歸中的多重共線性。對於訓練集中的微小變化,您的學習模型可能不是特別穩定,因為不同的權重向量將具有相似的輸出。但是,訓練集的預測將相當穩定,因此如果它們來自相同的分佈,它們也會測試預測。
RBF 內核: RBF 內核只查看數據點之間的距離。因此,假設您實際上有 11 個屬性,但其中一個屬性重複了 10 次(非常極端的情況)。然後,該重複屬性對距離的貢獻將是任何其他屬性的 10 倍,並且學習模型可能會受到該特徵的更大影響。
用 RBF 核折現相關性的一種簡單方法是使用馬氏距離:, 在哪裡是樣本協方差矩陣的估計。等效地,映射所有向量到然後使用常規的 RBF 內核,其中是這樣的,例如 Cholesky 分解.