Cross-Validation

拆分為訓練和測試之前或之後的插補?

  • April 24, 2014

我有一個 N ~ 5000 的數據集,並且至少有一個重要變量缺少大約 1/2。主要的分析方法是 Cox 比例風險。

我計劃使用多重插補。我還將分成一個訓練集和測試集。

我應該先拆分數據然後單獨估算,還是先估算然後拆分?

如果重要,我將使用PROC MIin SAS

您應該在預處理或插補之前進行拆分。

訓練集和測試集之間的劃分是試圖複製您擁有過去信息並正在構建模型的情況,您將在未來未知的信息上測試該模型:訓練集代替過去,測試集代替未來的地方,所以你只能測試你訓練過的模型一次。

牢記過去/未來的類比,這意味著您為預處理或處理數據所做的任何事情,例如估算缺失值,您都應該單獨在訓練集上執行。然後,如果您的測試集也需要預處理或插補,那麼您可以記住您對訓練集做了什麼,以便您在兩個集上以相同的方式進行操作。

*從評論中補充:*如果您使用測試數據影響訓練數據,那麼測試數據將被用於構建您的模型,因此它不再是測試數據,並且不會為您的模型提供公平的測試。你冒著過度擬合的風險,為了阻止這種情況,你首先分離出測試數據

引用自:https://stats.stackexchange.com/questions/95083

comments powered by Disqus