“樣本內”和“偽樣本外”預測之間的差異

November 7, 2013

樣本內預測和偽樣本外預測之間是否存在明顯差異。兩者都是在評估和比較預測模型的背景下進行的。

假設你有數據 $ {Y_t,X_{t-h}}{t=h+1}^T ，在哪裡 h \in {1,2,\ldots}, 你的目標是建立一個模型（比如說， \hat f(X{t-h}) Y_t X_{t-h} T $ 對應於今天。

樣本內分析意味著使用所有可用數據估計模型，包括，然後將模型的擬合值與實際實現進行比較。然而，眾所周知，這個過程對模型的預測能力過於樂觀，因為常見的擬合算法（例如使用平方誤差或似然標準）往往會努力避免大的預測誤差，因此容易受到過度擬合 - 錯誤噪聲的影響用於數據中的信號。

真正的樣本外分析是根據截至今天（包括今天）的數據估計模型，構建對明天價值的預測，等到明天，記錄預測誤差重新估計模型，做出新的預測，等等。在本練習結束時，會有一個預測誤差樣本這將是真正的樣本外，並且會給出模型性能的非常真實的畫面。

由於這個過程非常耗時，人們經常求助於“偽”或“模擬”樣本外分析，這意味著使用一些歷史日期來模擬上一段中描述的過程，而不是今天的日期 , 作為起點。產生的預測誤差然後用於估計模型的樣本外預測能力。

請注意，偽樣本外分析並不是估計模型樣本外性能的唯一方法。替代方案包括交叉驗證和信息標準。

第 7 章對所有這些問題進行了很好的討論。

[舊鏈接]

http://www.stanford.edu/~hastie/local.ftp/Springer/OLD/ESLII_print4.pdf

[新鏈接，2021 年 11 月 1 日]

https://web.stanford.edu/~hastie/Papers/ESLII.pdf

引用自：https://stats.stackexchange.com/questions/74865

“樣本內”和“偽樣本外”預測之間的差異

相關問答

我什麼時候應該使用驗證而不是交叉驗證

一個不能改善樣本外預測的“重要變量”——如何解釋？

比較多組均值的 ANOVA 和比較嵌套模型的 ANOVA 之間有什麼關係？

什麼是創建保留集更合適的方法：刪除一些主題或刪除每個主題的一些觀察？

樣本誤差和訓練誤差以及樂觀的直覺有什麼區別？

使用 k 折交叉驗證時，我們是否需要測試集？