Time-Series
將時間序列數據拆分為訓練/測試/驗證集
將時間序列數據拆分為訓練/測試/驗證集的最佳方法是什麼,驗證集將用於超參數調整?
我們有 3 年的每日銷售數據,我們的計劃是使用 2015-2016 作為訓練數據,然後從 2017 年的數據中隨機抽取 10 周作為驗證集,從 2017 年的數據中再抽取 10 周作為驗證集測試集。然後,我們將在測試和驗證集中的每一天向前走。
您應該使用基於時間的拆分來避免前瞻偏差。按時間順序訓練/驗證/測試。
測試集應該是數據的最新部分。您需要在生產環境中模擬一種情況,在訓練模型之後,您需要評估模型創建之後的數據。因此,您用於驗證和訓練的隨機抽樣並不是一個好主意。