Logistic

如何交叉驗證逐步邏輯回歸?

  • July 23, 2015

我有一個概念問題,了解如何交叉驗證逐步邏輯回歸。每次劃分訓練集時,很可能會根據 penter 和 premove 標準選擇不同的特徵。我應該每次都使用不同的選擇模型進行交叉驗證,還是應該找到一個基本事實並繼續進行交叉驗證?我認為後者聽起來更合理,但我擔心在某個地方我會損害測試失明。幫助表示讚賞。

統計學習的要素非常清楚地給出了答案(第二版,第 246 頁):

通常,對於多步建模過程,交叉驗證必須應用於整個建模步驟序列。特別是,在應用任何選擇或過濾步驟之前,必須“排除”樣本。有一個條件:可以在樣本被遺漏之前完成初始的無監督篩選步驟。

在這種類型的分析中,問題在於從您的樣本中推斷出的“基本事實”可能不代表總體中的“基本事實”。交叉驗證可以幫助將結果推廣到總體,但前提是對每個驗證折疊都重複建模過程的所有步驟。

正如我和@user777 所建議的那樣,如果您使用逐步選擇以外的方法來處理相關的預測變量,您可能會做得更好。對於高度相關的預測變量,逐步選擇幾乎肯定會導致對預測變量的選擇從折疊到折疊高度不同。正則化方法可以更好地處理相關預測變量。例如,嶺回歸本質上是一種主成分回歸,其成分具有權重,因此高度相關的變量往往會一起出現在相同的成分中。

引用自:https://stats.stackexchange.com/questions/162861

comments powered by Disqus