“樣本內”和“偽樣本外”預測之間的差異
樣本內預測和偽樣本外預測之間是否存在明顯差異。兩者都是在評估和比較預測模型的背景下進行的。
假設你有數據 $ {Y_t,X_{t-h}}{t=h+1}^T ,在哪裡
,在哪裡 h \in {1,2,\ldots}, 你的目標是建立一個模型(比如說,你的目標是建立一個模型(比如說, \hat f(X{t-h}) )預測 Y_t 給定 X_{t-h} .具體而言,假設數據是每天的,並且 T $ 對應於今天。樣本內分析意味著使用所有可用數據估計模型,包括 T ,然後將模型的擬合值與實際實現進行比較。然而,眾所周知,這個過程對模型的預測能力過於樂觀,因為常見的擬合算法(例如使用平方誤差或似然標準)往往會努力避免大的預測誤差,因此容易受到過度擬合 - 錯誤噪聲的影響用於數據中的信號。
真正的樣本外分析是根據截至今天(包括今天)的數據估計模型,構建對明天價值的預測 YT+1 ,等到明天,記錄預測誤差 eT+1≡YT+1−ˆf(XT+1−h), 重新估計模型,做出新的預測 YT+2 ,等等。在本練習結束時,會有一個預測誤差樣本 eT+lLl=1 這將是真正的樣本外,並且會給出模型性能的非常真實的畫面。
由於這個過程非常耗時,人們經常求助於“偽”或“模擬”樣本外分析,這意味著使用一些歷史日期來模擬上一段中描述的過程 T0<T ,而不是今天的日期 T , 作為起點。產生的預測誤差 etTt=T0+1 然後用於估計模型的樣本外預測能力。
請注意,偽樣本外分析並不是估計模型樣本外性能的唯一方法。替代方案包括交叉驗證和信息標準。
第 7 章對所有這些問題進行了很好的討論。
[舊鏈接]
http://www.stanford.edu/~hastie/local.ftp/Springer/OLD/ESLII_print4.pdf
[新鏈接,2021 年 11 月 1 日]