Svm
SVM 網格搜索是否應該顯示周圍精度較低的高精度區域?
我有 12 個積極的訓練集(用藥物治療的癌細胞,每種都有 12 種不同的作用機制)。對於這些正訓練集中的每一個,我想訓練一個支持向量機,以將其與從實驗中採樣的相同大小的負集區分開來。每組有 1000 到 6000 個細胞,每個細胞有 476 個特徵(圖像特徵),每個都線性縮放到 [0, 1]。
我使用LIBSVM和高斯 RGB 內核。使用五折交叉驗證,我對 log₂ C ∈ [-5, 15] 和 log₂ ɣ ∈ [-15, 3] 進行了網格搜索。結果如下:
令我失望的是,沒有一組參數可以為所有 12 個分類問題提供高精度。我也很驚訝網格通常不會顯示被較低精度包圍的高精度區域。這是否只是意味著我需要擴展搜索參數空間,或者網格搜索是否表明其他問題?
對於不同的學習任務,超參數的最佳值會有所不同,您需要針對每個問題分別調整它們。
您沒有獲得單一最優值的原因是因為內核參數和正則化參數都控制著模型的複雜性。如果 C 很小,你會得到一個平滑的模型,同樣如果內核很寬,你會得到一個平滑的模型(因為基函數不是很局部)。這意味著 C 和內核寬度的不同組合導致相似的複雜模型,具有相似的性能(這就是為什麼你在許多圖中得到對角線特徵的原因)。
最優值還取決於訓練集的特定採樣。過度擬合交叉驗證錯誤是可能的,因此如果運氣不好,通過交叉驗證選擇超參數實際上會使性能變差。有關這方面的一些討論,請參閱Cawley 和 Talbot。
事實上,超參數的值有一個廣泛的平台,你會得到類似的好值,這實際上是支持向量機的一個很好的特性,因為它表明它們在模型選擇中不太容易受到過度擬合的影響。如果您在最佳值處有一個尖銳的峰值,那將是一件壞事,因為使用有限數據集很難找到該峰值,這將提供該峰值實際所在位置的不可靠指示。