比較泛化性能的分佈

July 17, 2013

假設我對一個分類問題有兩種學習方法，和，並且我通過重複交叉驗證或自舉來估計它們的泛化性能。從這個過程中，我得到分數的分佈 和對於這些重複中的每種方法（例如，每個模型的 ROC AUC 值的分佈）。

查看這些分佈，可能是但那（即預期的泛化性能高於，但這個估計有更多的不確定性）。

我認為這被稱為回歸中的**偏差方差困境**。

我可以用什麼數學方法來比較和並最終就使用哪種模型做出明智的決定？

**注意：**為簡單起見，我指的是兩種方法和在這裡，但我對可用於比較約 1000 種學習方法（例如來自網格搜索）的分數分佈並最終決定使用哪個模型的方法感興趣。

如果只有兩種方法，A 和 B，我將計算模型 A 的誤差（根據一些合適的性能指標）低於模型 B 的誤差的任意訓練/測試分區的概率。如果這個概率大於 0.5，我會選擇模型 A，否則選擇模型 B（參見 Mann-Whitney U 檢驗？）但是，我強烈懷疑最終會選擇均值較低的模型，除非性能統計的分佈非常不-對稱。

另一方面，對於網格搜索，情況有點不同，因為您並沒有真正比較不同的方法，而是調整同一模型的（超）參數以適應有限的數據樣本（在這種情況下，間接通過交叉-驗證）。我發現這種調整很容易過度擬合，請參閱我的論文

Gavin C. Cawley, Nicola LC Talbot，“論模型選擇中的過度擬合和性能評估中的後續選擇偏差”，機器學習研究雜誌，11（7 月）：2079-2107，2010。（www）

我有一篇正在審查的論文表明，最好對內核機器（例如 SVM）使用相對粗糙的網格，以避免過度擬合模型選擇標準。另一種方法（我還沒有調查過，所以請注意講師！）是選擇具有最高誤差的模型，該模型在統計上並不遜於網格搜索中發現的最佳模型（儘管這可能是一種相當悲觀的方法，尤其是對於小數據集）。

真正的解決方案可能不是使用網格搜索優化參數，而是使用貝葉斯方法或僅作為集成方法對參數值進行平均。如果不優化，過擬合更難！

引用自：https://stats.stackexchange.com/questions/64597

comments powered by Disqus

比較泛化性能的分佈

相關問答

當我們繪製數據然後在回歸模型中使用非線性變換時，我們是否在窺探數據？

我們想遠離意義嗎？

通過選擇聚合數據來解決辛普森悖論的示例

我什麼時候應該使用驗證而不是交叉驗證

R中GAM的模型選擇

AIC 中有意義的差異的“經驗法則”背後的邏輯是什麼？