Classification

我應該重新洗牌我的數據嗎?

  • January 2, 2011

我們有一套非常昂貴的生物樣本。我們對這些樣本進行了一系列測試,以生成用於構建預測模型的數據。為此,我們將樣本分為訓練集(70%)和測試集(30%)。我們已經成功地創建了一個模型並將其應用於測試集,以發現性能“不是最優的”。實驗者現在想要改進生物測試以創建更好的模型。如果我們無法獲得新的樣本,您是否建議我們重新洗牌以創建新的訓練和驗證集或堅持原來的劃分。(我們沒有任何跡象表明該部門是一個有問題的部門)。

由於您已經使用了保留樣本,我想說您應該保留它並在相同的訓練樣本上構建新模型,以便所有模型都考慮特徵之間的相同關係。此外,如果您執行特徵選擇,則必須在任何這些過濾階段之前排除樣本;也就是說,特徵選擇必須包含在交叉驗證循環中。

值得注意的是,有比 0.67/0.33 分割更強大的方法用於模型選擇,即 k 折交叉驗證或留一法。參見例如 統計學習的要素(第 7.10 節,第 241-248 頁),www.modelselection.org或Arlot 和 Celisse對模型選擇的交叉驗證程序的調查(需要更高級的數學背景)。

引用自:https://stats.stackexchange.com/questions/5887

comments powered by Disqus