Cross-Validation

交叉驗證之前的標準化

  • May 3, 2012

在執行重複的 k 折交叉驗證之前對數據進行歸一化(使其具有零均值和統一標準差)是否有任何負面影響,例如過度擬合?

注意:這是針對 #cases > total #features 的情況

我正在使用對數轉換轉換我的一些數據,然後如上所述對所有數據進行規範化。然後我正在執行特徵選擇。接下來,我將所選特徵和歸一化數據應用於重複的 10 倍交叉驗證,以嘗試估計泛化分類器的性能,並擔心使用所有數據進行歸一化可能不合適。我是否應該使用從該折疊的訓練數據中獲得的歸一化數據對每個折疊的測試數據進行歸一化?

任何意見都感激不盡!如果這個問題看起來很明顯,請道歉。

編輯: 在對此進行測試時(根據以下建議),我發現與 CV 中的歸一化相比,CV 之前的歸一化在性能方面並沒有太大差異。

要回答您的主要問題,在 CV 中擴展將是最佳且更合適的。但是,如果您的分類器重新調整數據(大多數情況下(至少在 R 中)),那麼它可能並不重要,並且在實踐中可能根本不重要。

但是,在交叉驗證之前選擇特徵是一個很大的問題,並且會導致過度擬合,因為您將根據它們在整個數據集上的表現來選擇它們。日誌轉換可以在外部執行,因為轉換不依賴於實際數據(更多地取決於數據類型),如果您只有 90% 的數據而不是 100% 和沒有根據數據進行調整。

還要回答您的評論,顯然它是否會導致過度擬合將取決於您選擇特徵的方式。如果您是偶然選擇它們(為什麼要這樣做?)或由於先驗的理論考慮(其他文獻),這無關緊要。但是,如果它取決於您的數據集,它會。Elements of Statistical Learnings 有一個很好的解釋。您可以在這裡自由合法地下載 .pdf http://www-stat.stanford.edu/~tibs/ElemStatLearn/

與您有關的觀點在第五版第 245 頁的第 7.10.2 節中。它的標題是“進行交叉驗證的錯誤和正確的方法”。

引用自:https://stats.stackexchange.com/questions/27627

comments powered by Disqus