Multiple-Regression

為什麼執行逐步選擇後 p 值會產生誤導?

  • November 3, 2015

例如,讓我們考慮一個線性回歸模型。我聽說,在數據挖掘中,在基於 AIC 標準執行逐步選擇之後,查看 p 值來檢驗每個真實回歸係數為零的零假設是一種誤導。我聽說應該將模型中剩餘的所有變量視為具有不同於零的真實回歸係數。誰能解釋我為什麼?謝謝你。

在基於 AIC 標準執行逐步選擇之後,查看 p 值以檢驗每個真實回歸係數為零的原假設會產生誤導。

事實上,當原假設為真時,p 值表示看到一個檢驗統計量至少與你所擁有的一樣極端的概率。如果 $ H_0 $ 為真,p 值應具有均勻分佈。

但是在逐步選擇之後(或者實際上,在模型選擇的各種其他方法之後),保留在模型中的那些項的 p 值不具有該屬性,即使我們知道原假設為真。

發生這種情況是因為我們選擇了具有或傾向於具有較小 p 值的變量(取決於我們使用的精確標準)。這意味著模型中剩餘變量的 p 值通常比我們擬合單個模型時要小得多。請注意,如果模型類別包括真實模型,或者模型類別足夠靈活以接近真實模型,則選擇平均會選擇似乎比真實模型更好的模型。

[此外,出於基本相同的原因,剩餘的係數偏離零,其標準誤差偏低;這反過來也會影響置信區間和預測——例如,我們的預測會太窄。]

要查看這些影響,我們可以採用多元回歸,其中一些係數為 0,而另一些則不是,執行逐步過程,然後對於那些包含係數為零的變量的模型,查看結果的 p 值。

(在同一個模擬中,您可以查看係數的估計值和標準差,並發現對應於非零係數的那些也會受到影響。)

簡而言之,將通常的 p 值視為有意義是不合適的。

我聽說應該將模型中留下的所有變量視為重要變量。

至於逐步之後模型中的所有值是否都應該被“視為重要”,我不確定這在多大程度上是一種有用的看待它的方式。那麼“意義”是什麼意思呢?


stepAIC這是在n=100 的 1000 個模擬樣本和 10 個候選變量(均與響應無關)上使用默認設置運行 R 的結果。在每種情況下,都會計算模型中剩餘的項數:

在此處輸入圖像描述

只有 15.5% 的時間選擇了正確的模型;其餘時間,該模型包含與零相同的項。如果候選變量集中確實有可能存在零係數變量,那麼我們的模型中很可能有幾個項的真實係數為零。因此,不清楚將它們全部視為非零是個好主意。

引用自:https://stats.stackexchange.com/questions/179941

comments powered by Disqus