Multiple-Regression

單個回歸顯著但 VIF 低時的多重共線性

  • March 11, 2012

我有 6 個變量() 我用來預測的. 在進行數據分析時,我首先嘗試了多元線性回歸。由此,只有兩個變量是顯著的。但是,當我運行線性回歸時,將每個變量分別與, 除了一個之外,其他都是顯著的 (從小於 0.01 到小於 0.001)。有人認為這是由於多重共線性。

我對此的初步研究建議使用VIF檢查多重共線性。我從 R 下載了相應的包,最終得到了 VIF:3.35、3.59、2.64、2.24 和 5.56。根據網上的各種消息來源,您應該擔心 VIF 的多重共線性是 4 或 5。

我現在很困惑這對我的數據意味著什麼。我是否有多重共線性問題?如果我這樣做,那麼我應該如何進行?(我無法收集更多數據,並且變量是模型中不明顯相關的部分)如果我沒有這個問題,那麼我應該從我的數據中獲取什麼,特別是這些變量非常重要的事實單獨,但結合起來根本不重要。

**編輯:**關於數據集的一些問題已經被問到,所以我想擴展……

在這種特殊情況下,我們希望了解特定的社交線索(手勢、注視等)如何影響某人產生其他線索的可能性。我們希望我們的模型包含所有重要的屬性,所以我不願意刪除一些看起來多餘的屬性。

目前沒有任何假設。相反,這個問題沒有得到研究,我們正在尋求更好地了解哪些屬性是重要的。據我所知,這些屬性應該是相對獨立的(你不能只說凝視和手勢是相同的,或者是另一個的子集)。能夠報告所有事物的 p 值會很好,因為我們希望其他研究人員了解所研究的內容。

**編輯2:**因為它出現在下面的某個地方,我的是 24。

要了解會發生什麼,生成(和分析)以所述方式運行的數據是有益的。

為簡單起見,讓我們忘記第六個自變量。因此,問題描述了一個因變量的回歸針對五個自變量, 其中

  • 每個普通回歸在水平上顯著小於.
  • 多元回歸僅產生顯著係數和.
  • 所有方差膨脹因子 (VIF) 都很低,表明設計矩陣中的條件良好(即,在設計矩陣之間缺乏共線性)).

讓我們按如下方式實現:

  1. 產生正態分佈值和. (我們會選擇之後。)
  2. 讓在哪裡是均值的獨立正態誤差. 需要一些試驗和錯誤才能找到合適的標準偏差;工作正常(而且相當戲劇化:_ _和, 即使它只是中度相關和個別)。
  3. 讓=,, 在哪裡是獨立的標準正態誤差。這使得只是稍微依賴. 然而,通過兩者之間的緊密相關性和,這會導致兩者之間存在微小的相關性還有這些.

問題來了:如果我們做足夠大,這些輕微的相關性將導致顯著的係數,即使幾乎完全由前兩個變量“解釋”。

我找到可以很好地重現報告的 p 值。這是所有六個變量的散點圖矩陣:

spm

通過檢查右列(或底行),您可以看到具有良好的(正)相關性和但與其他變量沒有明顯的相關性。通過檢查該矩陣的其餘部分,您可以看到自變量似乎相互不相關(隨機掩蓋我們所知道的微小的依賴關係。)沒有特殊的數據——沒有什麼特別離群或高槓桿。直方圖顯示所有六個變量都近似正態分佈,順便說一句:這些數據與人們可能想要的一樣普通和“普通”。

在回歸中反對和,p 值基本上為 0。在單個回歸中反對, 然後反對, 和反對,p 值分別為 0.0024、0.0083 和 0.00064:也就是說,它們“非常顯著”。但在完全多元回歸中,相應的 p 值分別膨脹到 0.46、0.36 和 0.52:根本不顯著。原因是曾經已經回歸和,剩下要“解釋”的唯一東西是殘差中的微小誤差,這將近似於,並且這個錯誤幾乎與剩下的完全無關. (“幾乎”是正確的:殘差部分是根據和和,, 確實有一些微弱的關係和. 但是,正如我們所見,這種殘餘關係實際上是無法檢測到的。)

設計矩陣的條件數僅為 2.17:非常低,沒有任何跡象表明存在高度多重共線性。 (完全沒有共線性將反映在條件數 1 中,但在實踐中,這僅在人工數據和設計實驗中可見。在 1-6 範圍內(甚至更高,具有更多變量)的條件數並不顯著。)這樣就完成了模擬:它成功地再現了問題的各個方面。

該分析提供的重要見解包括

  1. p 值並沒有直接告訴我們有關共線性的任何信息。 它們在很大程度上取決於數據量。
  2. 多元回歸中的 p 值和相關回歸(涉及自變量的子集)中的 p 值之間的關係是複雜的並且通常是不可預測的。

因此,正如其他人所說,p 值不應該是您選擇模型的唯一指南(甚至是您的主要指南)。


編輯

沒有必要大到讓這些現像出現。 受問題中其他信息的啟發,以下是以類似方式構建的數據集(在這種情況下為了)。這會產生 0.38 到 0.73 之間的相關性和. 設計矩陣的條件數為 9.05:有點高,但並不可怕。(一些經驗法則說,高達 10 的條件數是可以的。)針對單個回歸的 p 值分別為 0.002、0.015 和 0.008:顯著到高度顯著。因此,涉及到一些多重共線性,但它並沒有太大以至於人們會努力改變它。 基本見解保持不變:重要性和多重共線性是不同的東西;其中只有溫和的數學約束;即使沒有嚴重的多重共線性問題,即使包含或排除單個變量也可能對所有 p 值產生深遠影響。

x1 x2 x3 x4 x5 y
-1.78256    -0.334959   -1.22672    -1.11643    0.233048    -2.12772
0.796957    -0.282075   1.11182 0.773499    0.954179    0.511363
0.956733    0.925203    1.65832 0.25006 -0.273526   1.89336
0.346049    0.0111112   1.57815 0.767076    1.48114 0.365872
-0.73198    -1.56574    -1.06783    -0.914841   -1.68338    -2.30272
0.221718    -0.175337   -0.0922871  1.25869 -1.05304    0.0268453
1.71033 0.0487565   -0.435238   -0.239226   1.08944 1.76248
0.936259    1.00507 1.56755 0.715845    1.50658 1.93177
-0.664651   0.531793    -0.150516   -0.577719   2.57178 -0.121927
-0.0847412  -1.14022    0.577469    0.694189    -1.02427    -1.2199
-1.30773    1.40016 -1.5949 0.506035    0.539175    0.0955259
-0.55336    1.93245 1.34462 1.15979 2.25317 1.38259
1.6934  0.192212    0.965777    0.283766    3.63855 1.86975
-0.715726   0.259011    -0.674307   0.864498    0.504759    -0.478025
-0.800315   -0.655506   0.0899015   -2.19869    -0.941662   -1.46332
-0.169604   -1.08992    -1.80457    -0.350718   0.818985    -1.2727
0.365721    1.10428 0.33128 -0.0163167  0.295945    1.48115
0.215779    2.233   0.33428 1.07424 0.815481    2.4511
1.07042 0.0490205   -0.195314   0.101451    -0.721812   1.11711
-0.478905   -0.438893   -1.54429    0.798461    -0.774219   -0.90456
1.2487  1.03267 0.958559    1.26925 1.31709 2.26846
-0.124634   -0.616711   0.334179    0.404281    0.531215    -0.747697
-1.82317    1.11467 0.407822    -0.937689   -1.90806    -0.723693
-1.34046    1.16957 0.271146    1.71505 0.910682    -0.176185

引用自:https://stats.stackexchange.com/questions/24464

comments powered by Disqus