支持向量機如何避免過擬合？

July 11, 2014

我知道在支持向量機模型的對偶形式中，特徵向量僅表示為點積。將特徵向量映射到更高維空間可以容納在原始特徵空間中不能線性分離的類，但是計算這種映射並使用更高維特徵向量在計算上是禁止的。相反，內核可用於有效地計算與映射向量的點積相同的值。

支持向量機如何避免過擬合？最大化決策邊界的邊距是他們使用的唯一技巧，還是我錯過了什麼？

最大化邊距並不是唯一的技巧（儘管它非常重要）。如果使用非線性核函數，那麼核函數的平滑度也會影響分類器的複雜度，從而影響過擬合的風險。例如，如果您使用徑向基函數 (RBF) 內核並將比例因子（內核參數）設置為非常小的值，則 SVM 將傾向於線性分類器。如果您使用較高的值，分類器的輸出將對輸入的微小變化非常敏感，這意味著即使使用邊距最大化，您也可能會過度擬合。

不幸的是，SVM 的性能可能對正則化和核參數的選擇非常敏感，並且在通過例如交叉驗證調整這些超參數時可能會過度擬合。支持 SVM 的理論並沒有阻止這種形式的模型選擇過度擬合。請參閱我關於此主題的論文：

GC Cawley 和 NLC Talbot，模型選擇中的過度擬合和性能評估中的後續選擇偏差，機器學習研究雜誌，2010 年。研究，第一卷。11，第 2079-2107 頁，2010 年 7 月。

引用自：https://stats.stackexchange.com/questions/107553

comments powered by Disqus

支持向量機如何避免過擬合？

相關問答