用於時間序列預測的隨機森林回歸

February 22, 2017

我正在嘗試利用 RF 回歸來預測造紙廠的性能。

我有每分鐘的輸入數據（進入木漿的速率和數量等）以及機器的性能（生產的紙張、機器消耗的功率），我希望在 10 分鐘內做出預測在性能變量上領先。

我有 12 個月的數據，因此將其分為 11 個月的訓練集和最後一個月的測試。

到目前為止，我已經為每個性能變量創建了 10 個滯後值 1-10 分鐘的新特徵，並使用這些以及輸入進行預測。測試集上的表現非常好（系統非常可預測），但我擔心我的方法中遺漏了一些東西。

例如，在本文中，作者陳述了他們測試隨機森林模型預測能力的方法：

模擬通過迭代添加新一周的數據、根據更新的數據訓練新模型並預測下一周的爆發次數來進行

這與使用時間序列中的“後期”數據作為測試有何不同？我是否應該使用這種方法以及測試數據集來驗證我的 RF 回歸模型？此外，這種隨機森林回歸的“自回歸”方法對時間序列有效嗎？如果我對未來 10 分鐘的預測感興趣，我是否甚至需要創建這麼多滯後變量？

這與使用時間序列中的“後期”數據作為測試有何不同？

您引用的方法稱為“滾動原點”預測：我們預測的原點是“前滾”，並且使用新可用信息更新訓練數據。更簡單的方法是“單一來源預測”，我們選擇單一來源。

滾動原點預測的優勢在於它模擬了隨著時間的推移的預測系統。在單一來源預測中，我們可能會偶然選擇一個我們的系統運行良好（或非常糟糕）的來源，這可能會讓我們對系統的性能產生錯誤的認識。

滾動原點預測的一個缺點是其較高的數據要求。如果我們想用至少 50 個歷史觀察預測出 10 個步驟，那麼我們可以用總共 60 個數據點來做這個單原點。但是如果我們想做 10 個重疊的滾動原點，那麼我們需要 70 個數據點。

另一個缺點當然是其更高的複雜性。

不用說，您也不應該在滾動原點預測中使用“後期”數據，而只能使用您在每次迭代中使用的原點之前的數據。

我是否應該使用這種方法以及測試數據集來驗證我的 RF 回歸模型？

如果你有足夠的數據，滾動原點評估總是比單一原點評估更能激發我的信心，因為它有望平均原點的影響。

此外，這種隨機森林回歸的“自回歸”方法對時間序列有效嗎？如果我對未來 10 分鐘的預測感興趣，我是否甚至需要創建這麼多滯後變量？

是的，滾動與單一來源預測對任何預測練習都有效。它不取決於您是使用隨機森林還是 ARIMA 或其他任何東西。

您是否需要滯後變量是我們無法為您提供建議的。最好與主題專家交談，他們也可能會提出其他意見。只需嘗試使用滯後輸入與沒有輸入的射頻即可。並且還可以與 ARIMA 或 ETS 等標準基準測試甚至更簡單的方法進行比較，這些方法可能難以擊敗。

引用自：https://stats.stackexchange.com/questions/263405

comments powered by Disqus

用於時間序列預測的隨機森林回歸

相關問答

Covid-19 的預測效果如何？

為什麼我和我的同事對測試集和驗證集的定義相反？

為什麼要執行時間序列分解

隨機森林是否擅長檢測交互項？

XGboost 和深度學習模型中 Tweedie 或泊松損失/目標函數的用途是什麼

波動率預測的準確性