用於時間序列預測的隨機森林回歸
我正在嘗試利用 RF 回歸來預測造紙廠的性能。
我有每分鐘的輸入數據(進入木漿的速率和數量等)以及機器的性能(生產的紙張、機器消耗的功率),我希望在 10 分鐘內做出預測在性能變量上領先。
我有 12 個月的數據,因此將其分為 11 個月的訓練集和最後一個月的測試。
到目前為止,我已經為每個性能變量創建了 10 個滯後值 1-10 分鐘的新特徵,並使用這些以及輸入進行預測。測試集上的表現非常好(系統非常可預測),但我擔心我的方法中遺漏了一些東西。
例如,在本文中,作者陳述了他們測試隨機森林模型預測能力的方法:
模擬通過迭代添加新一周的數據、根據更新的數據訓練新模型並預測下一周的爆發次數來進行
這與使用時間序列中的“後期”數據作為測試有何不同?我是否應該使用這種方法以及測試數據集來驗證我的 RF 回歸模型?此外,這種隨機森林回歸的“自回歸”方法對時間序列有效嗎?如果我對未來 10 分鐘的預測感興趣,我是否甚至需要創建這麼多滯後變量?
這與使用時間序列中的“後期”數據作為測試有何不同?
您引用的方法稱為“滾動原點”預測:我們預測的原點是“前滾”,並且使用新可用信息更新訓練數據。更簡單的方法是“單一來源預測”,我們選擇單一來源。
滾動原點預測的優勢在於它模擬了隨著時間的推移的預測系統。在單一來源預測中,我們可能會偶然選擇一個我們的系統運行良好(或非常糟糕)的來源,這可能會讓我們對系統的性能產生錯誤的認識。
滾動原點預測的一個缺點是其較高的數據要求。如果我們想用至少 50 個歷史觀察預測出 10 個步驟,那麼我們可以用總共 60 個數據點來做這個單原點。但是如果我們想做 10 個重疊的滾動原點,那麼我們需要 70 個數據點。
另一個缺點當然是其更高的複雜性。
不用說,您也不應該在滾動原點預測中使用“後期”數據,而只能使用您在每次迭代中使用的原點之前的數據。
我是否應該使用這種方法以及測試數據集來驗證我的 RF 回歸模型?
如果你有足夠的數據,滾動原點評估總是比單一原點評估更能激發我的信心,因為它有望平均原點的影響。
此外,這種隨機森林回歸的“自回歸”方法對時間序列有效嗎?如果我對未來 10 分鐘的預測感興趣,我是否甚至需要創建這麼多滯後變量?
是的,滾動與單一來源預測對任何預測練習都有效。它不取決於您是使用隨機森林還是 ARIMA 或其他任何東西。
您是否需要滯後變量是我們無法為您提供建議的。最好與主題專家交談,他們也可能會提出其他意見。只需嘗試使用滯後輸入與沒有輸入的射頻即可。並且還可以與 ARIMA 或 ETS 等標準基準測試甚至更簡單的方法進行比較,這些方法可能難以擊敗。