Cross-Validation

交叉驗證之外的超參數調整有多糟糕?

  • February 12, 2015

我知道在交叉驗證之外執行超參數調整會導致對外部有效性的偏高估計,因為用於測量性能的數據集與用於調整特徵的數據集相同。

我想知道這是一個多麼糟糕的問題。我可以理解這對特徵選擇有多麼不利,因為這會給你大量的參數來調整。但是,如果您使用的是 LASSO(它只有一個參數,即正則化強度),或者沒有特徵選擇的隨機森林(它可以有幾個參數,但沒有像添加/刪除噪聲特徵那樣引人注目)怎麼辦?

在這些情況下,您期望您對訓練誤差的估計有多樂觀?

我將不勝感激有關此的任何信息——案例研究、論文、軼事等。謝謝!

**編輯:**澄清一下,我不是在談論在訓練數據上估計模型性能(即,根本不使用交叉驗證)。“交叉驗證之外的超參數調整”是指僅使用交叉驗證來估計每個單獨模型的性能,但包括外部的第二個交叉驗證循環來糾正超參數調整過程中的過度擬合(不同於訓練過程中的過度擬合)。參見例如這裡的答案

這種偏見的影響可能非常大。一些機器學習會議中的開放機器學習競賽很好地證明了這一點。這些通常有一個訓練集、一個驗證集和一個測試集。競爭對手看不到驗證集或測試集的標籤(顯然)。驗證集用於確定每個人都可以在比賽進行時看到的排行榜上的競爭對手的排名。根據測試數據,在比賽結束時處於排行榜領先地位的人在最終排名中非常低是很常見的。這是因為他們已經為他們的學習系統調整了超參數,以最大限度地提高他們在排行榜上的表現,並且這樣做過度擬合了驗證數據通過調整他們的模型。更有經驗的用戶很少或根本不關注排行榜,並採用更嚴格的無偏性能估計來指導他們的方法。

我的論文中的示例(由 Jacques 提到)表明,這種偏差的影響可能與學習算法之間的差異具有相同的大小,所以簡短的回答是,如果你是,請不要使用有偏差的性能評估協議真正有興趣找出什麼有效,什麼無效。基本規則是“將模型選擇(例如超參數調整)視為模型擬合過程的一個組成部分,並將其包含在用於性能評估的交叉驗證的每個折疊中)。

事實上,正則化比特徵選擇更不容易過擬合,這正是 LASSO 等是執行特徵選擇的好方法的原因。然而,偏差的大小取決於特徵的數量、數據集的大小和學習任務的性質(即,有一個元素取決於特定的數據集,並且會因應用程序而異)。這與數據相關的性質意味著您最好通過使用無偏協議並比較差異來估計偏差的大小(報告該方法在這種特殊情況下對模型選擇的過度擬合是穩健的可能是有意義的在自身)。

GC Cawley 和 NLC Talbot (2010),“模型選擇中的過度擬合和性能評估中的後續選擇偏差”,機器學習研究雜誌,11,第 2079 頁,第 5.2 節。)

引用自:https://stats.stackexchange.com/questions/137481

comments powered by Disqus