Dataset

只對訓練數據集進行探索性數據分析會更好嗎?

  • January 7, 2016

我正在對數據集進行探索性數據分析 (EDA)。然後我會選擇一些特徵來預測一個因變量。

問題是:

我應該只對我的訓練數據集進行 EDA 嗎?或者我應該將訓練和測試數據集一起加入,然後對它們進行 EDA 並根據此分析選擇特徵?

我建議您查看http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf中的“7.10.2 進行交叉驗證的錯誤和正確方法” 。

作者舉了一個例子,其中有人做了以下事情:

  1. 篩選預測變量:找到與類標籤顯示出相當強(單變量)相關性的“好”預測變量子集
  2. 僅使用這個預測變量子集,構建一個多元分類器。
  3. 使用交叉驗證來估計未知的調整參數並估計最終模型的預測誤差

這聽起來與對所有數據(即訓練加測試)進行 EDA 並使用 EDA 選擇“好的”預測變量非常相似。

作者解釋了為什麼這是有問題的:交叉驗證的錯誤率會被人為降低,這可能會誤導您認為您已經找到了一個好的模型。

引用自:https://stats.stackexchange.com/questions/189678

comments powered by Disqus