Forecasting

Stepwise AIC - 圍繞這個話題是否存在爭議?

  • November 17, 2018

我在這個網站上閱讀了無數帖子,這些帖子非常反對使用任何類型的標準逐步選擇變量,無論是基於 p 值、AIC、BIC 等。

我理解為什麼這些程序一般來說對於變量的選擇很差。gung 的可能著名的帖子在這裡清楚地說明了原因;最終,我們將在我們用來提出假設的同一數據集上驗證假設,這只是數據挖掘。此外,p 值受共線性和異常值等數量的影響,這些數量會嚴重扭曲結果等。

但是,我最近一直在研究時間序列預測,並且遇到了 Hyndman 備受推崇的教科書,他在這里特別提到了使用逐步選擇來找到 ARIMA 模型的最佳順序。事實上,在forecastR 的包中,眾所周知的算法auto.arima默認使用逐步選擇(使用 AIC,而不是 p 值)。他還批評了基於 p 值的特徵選擇,這與該網站上的多個帖子非常吻合。

最終,如果目標是開髮用於預測/預測的良好模型,我們應該始終以某種方式進行交叉驗證。然而,當涉及到除 p 值以外的評估指標的程序本身時,這肯定有點分歧。

有沒有人對在這種情況下使用逐步 AIC 有任何意見,但在一般情況下也是如此?我被教導相信任何逐步選擇都是糟糕的,但老實說,auto.arima(stepwise = TRUE)從樣本結果中得到的結果比我更好,auto.arima(stepwise = FALSE)但也許這只是巧合。

這裡有幾個不同的問題。

  • 可能主要問題是模型選擇(無論是使用 p 值還是 AIC,逐步或所有子集或其他東西)對於推理來說主要是有問題的(例如,獲得具有適當類型 I 錯誤的 p 值,具有適當覆蓋率的置信區間)。對於預測,模型選擇確實可以在偏差-方差權衡軸上選擇一個更好的位置並改善樣本外誤差。
  • 對於某些類別的模型,AIC 漸近等效於留一法 CV 錯誤 [參見例如http://www.petrkeil.com/?p=836 ],因此使用 AIC 作為 CV 的計算有效代理是合理的。
  • 逐步選擇通常由其他模型選擇(或平均)方法(如果計算可行,則為所有子集,或收縮方法)主導。但它簡單易實現,如果答案足夠清晰(一些參數對應強信號,另一些弱,中間很少),那麼它會給出合理的結果。同樣,推理和預測之間存在很大差異。例如,如果您有幾個強相關的預測變量,選擇不正確的預測變量(從“真相”/因果的角度)是推理的大問題,但選擇恰好給您最好 AIC 的預測變量是合理的預測策略(儘管如果您嘗試預測預測變量相關性發生變化的情況,該策略將會失敗……)

底線:對於具有合理信噪比的中等大小的數據,基於 AIC 的逐步選擇確實可以產生可防禦的預測模型;例如,參見 Murtaugh (2009)。

Murtaugh, Paul A. “應用於真實生態數據的幾種變量選擇方法的性能。” 生態字母 12,沒有。10 (2009): 1061-1068。

引用自:https://stats.stackexchange.com/questions/377527

comments powered by Disqus