Classification
哪個 SVM 內核用於二進制分類問題?
在支持向量機方面,我是初學者。是否有一些指導方針說明哪個內核(例如線性、多項式)最適合特定問題?就我而言,我必鬚根據網頁是否包含某些特定信息對網頁進行分類,即我有一個二元分類問題。
您能概括地說哪個內核最適合這項任務嗎?還是我必須在我的特定數據集上嘗試其中的幾個才能找到最好的?順便說一句,我正在使用 Python 庫scikit-learn,它利用了 libSVM 庫。
您實際上已經在文獻中遇到了一些懸而未決的問題。正如您所說,有多種內核(例如,線性、徑向基函數、sigmoid、多項式),並將在由它們各自的方程定義的空間中執行您的分類任務。據我所知,沒有人明確表明一個內核在一種類型的文本分類任務上總是比另一種表現最好。
需要考慮的一件事是,每個核函數都有 1 個或多個參數需要針對您的數據集進行優化,這意味著,如果您做得正確,您應該有第二個保留訓練集合,您可以在該集合上研究這些參數的最佳值。(我說的是第二個保留集合,因為您應該已經有了一個用於為分類器找出最佳輸入特徵的集合。)我做了一個實驗,在其中我對每個集合進行了大規模優化這些參數用於簡單的文本分類任務,並發現每個內核似乎都表現得相當好,但在不同的配置下表現得很好。如果我沒記錯我的結果,sigmoid 表現最好,但在非常具體的參數調整中這樣做 - 我花了一個多月的時間讓我的機器找到。