Cross-Validation

留一法交叉驗證如何工作?如何從中選擇最終模型𝑛nn不同的型號?

  • May 1, 2012

我有一些數據,我想用這些數據建立一個模型(比如線性回歸模型)。在下一步中,我想在模型上應用 Leave-One-Out Cross-Validation (LOOCV),看看它的性能如何。

如果我對 LOOCV 的理解正確,我會使用除此樣本(訓練集)之外的每個樣本為我的每個樣本(測試集)構建一個新模型。然後我使用模型來預測測試集併計算錯誤.

在下一步中,我匯總使用所選函數生成的所有錯誤,例如均方誤差。我可以使用這些值來判斷模型的質量(或擬合優度)。

**問題:**這些質量值適用於哪個模型,那麼如果我發現從 LOOCV 生成的指標適合我的案例,我應該選擇哪個模型?LOOCV 看著不同的模型(其中是樣本量);我應該選擇哪一個模型?

  • 是使用所有樣本的模型嗎?在 LOOCV 過程中從未計算過此模型!
  • 是誤差最小的模型嗎?

最好將交叉驗證視為一種估計由特定過程生成的模型的泛化性能的方法,而不是模型本身。留一法交叉驗證本質上是對經過訓練的模型的泛化性能的估計數據樣本,這通常是對訓練過的模型性能的略微悲觀的估計樣品。

與其選擇一個模型,不如將模型擬合到所有數據,並使用 LOO-CV 提供對該模型性能的稍微保守的估計。

但是請注意,LOOCV 具有很高的方差(如果您使用不同的隨機數據樣本,您將獲得的值會有很大差異),這通常使其成為性能評估的估計器的錯誤選擇,即使它幾乎是無偏的。我一直使用它來選擇模型,但實際上只是因為它便宜(對於我正在研究的內核模型幾乎免費)。

引用自:https://stats.stackexchange.com/questions/27454

comments powered by Disqus

相關問答