Variance

留一法交叉驗證的高方差

  • October 23, 2015

我一遍又一遍地讀到,由於訓練折疊的大量重疊,“留一法”交叉驗證具有很高的方差。但是我不明白為什麼會這樣:交叉驗證的性能不應該非常穩定(低方差)正是因為訓練集幾乎相同嗎?還是我對“方差”的概念完全有錯誤的理解?

我也不完全理解 LOO 是如何做到公正的,但方差很大?如果 LOO 估計值等於期望值中的真實估計值 - 那麼它怎麼會有高方差?

注意:我知道這裡有一個類似的問題: 為什麼留一法交叉驗證 (LOOCV) 方差關於誤差的均值估計高?然而,回答的人稍後在評論中說,儘管有人支持,但他已經意識到他的回答是錯誤的。

這個問題可能最終會作為交叉驗證中的方差和偏差的副本而被關閉:為什麼留一法的 CV 具有更高的方差?,但在它發生之前,我想我會把我的評論變成答案。

我也不完全理解 LOO 是如何做到公正的,但方差很大?

考慮一個簡單的例子。設參數的真值為. 產生的估計量是無偏的並且具有相對較低的方差,但是產生的估計量也是無偏的,但方差要高得多。

交叉驗證的性能不應該非常穩定(低方差),因為訓練集幾乎相同嗎?

您需要考慮整個數據集的不同實現之間的差異。對於給定的數據集,留一法交叉驗證確實會為每個拆分生成非常相似的模型,因為訓練集相交太多(正如您正確注意到的那樣),但是這些模型加在一起可能與真實模型相去甚遠;跨數據集,它們將在不同的方向上相距很遠,因此方差很大。

至少我是這麼理解的。請參閱鏈接的線程進行更多討論,以及參考論文進行更多討論。

引用自:https://stats.stackexchange.com/questions/178388

comments powered by Disqus