Time-Series

將時間序列數據拆分為訓練/測試/驗證集

  • May 18, 2018

將時間序列數據拆分為訓練/測試/驗證集的最佳方法是什麼,驗證集將用於超參數調整?

我們有 3 年的每日銷售數據,我們的計劃是使用 2015-2016 作為訓練數據,然後從 2017 年的數據中隨機抽取 10 周作為驗證集,從 2017 年的數據中再抽取 10 周作為驗證集測試集。然後,我們將在測試和驗證集中的每一天向前走。

您應該使用基於時間的拆分來避免前瞻偏差。按時間順序訓練/驗證/測試。

測試集應該是數據的最新部分。您需要在生產環境中模擬一種情況,在訓練模型之後,您需要評估模型創建之後的數據。因此,您用於驗證和訓練的隨機抽樣並不是一個好主意。

引用自:https://stats.stackexchange.com/questions/346907

comments powered by Disqus