Forecasting

“樣本內”和“偽樣本外”預測之間的差異

  • November 7, 2013

樣本內預測偽樣本外預測之間是否存在明顯差異。兩者都是在評估和比較預測模型的背景下進行的。

假設你有數據 $ {Y_t,X_{t-h}}{t=h+1}^T $ , 在哪裡 $ h \in {1,2,\ldots}, $ 你的目標是建立一個模型(比如說, $ \hat f(X{t-h}) $ ) 預測 $ Y_t $ 給定 $ X_{t-h} $ . 具體而言,假設數據是每天的,並且 $ T $ 對應於今天。

樣本內分析意味著使用所有可用數據估計模型,包括 $ T $ ,然後將模型的擬合值與實際實現進行比較。然而,眾所周知,這個過程對模型的預測能力過於樂觀,因為常見的擬合算法(例如使用平方誤差或似然標準)往往會努力避免大的預測誤差,因此容易受到過度擬合 - 錯誤噪聲的影響用於數據中的信號。

真正的樣本外分析是根據截至今天(包括今天)的數據估計模型,構建對明天價值的預測 $ Y_{T+1} $ ,等到明天,記錄預測誤差 $ e_{T+1} \equiv Y_{T+1} - \hat f(X_{T+1-h}), $ 重新估計模型,做出新的預測 $ Y_{T+2} $ ,等等。在本練習結束時,會有一個預測誤差樣本 $ {e_{T+l}}_{l=1}^L $ 這將是真正的樣本外,並且會給出模型性能的非常真實的畫面。

由於這個過程非常耗時,人們經常求助於“偽”或“模擬”樣本外分析,這意味著使用一些歷史日期來模擬上一段中描述的過程 $ T_0 < T $ ,而不是今天的日期 $ T $ , 作為起點。產生的預測誤差 $ {e_t}_{t=T_0+1}^T $ 然後用於估計模型的樣本外預測能力。

請注意,偽樣本外分析並不是估計模型樣本外性能的唯一方法。替代方案包括交叉驗證和信息標準。

第 7 章對所有這些問題進行了很好的討論。

[舊鏈接]

http://www.stanford.edu/~hastie/local.ftp/Springer/OLD/ESLII_print4.pdf

[新鏈接,2021 年 11 月 1 日]

https://web.stanford.edu/~hastie/Papers/ESLII.pdf

引用自:https://stats.stackexchange.com/questions/74865

comments powered by Disqus