單個回歸顯著但 VIF 低時的多重共線性
我有 6 個變量() 我用來預測的. 在進行數據分析時,我首先嘗試了多元線性回歸。由此,只有兩個變量是顯著的。但是,當我運行線性回歸時,將每個變量分別與, 除了一個之外,其他都是顯著的 (從小於 0.01 到小於 0.001)。有人認為這是由於多重共線性。
我對此的初步研究建議使用VIF檢查多重共線性。我從 R 下載了相應的包,最終得到了 VIF:3.35、3.59、2.64、2.24 和 5.56。根據網上的各種消息來源,您應該擔心 VIF 的多重共線性是 4 或 5。
我現在很困惑這對我的數據意味著什麼。我是否有多重共線性問題?如果我這樣做,那麼我應該如何進行?(我無法收集更多數據,並且變量是模型中不明顯相關的部分)如果我沒有這個問題,那麼我應該從我的數據中獲取什麼,特別是這些變量非常重要的事實單獨,但結合起來根本不重要。
**編輯:**關於數據集的一些問題已經被問到,所以我想擴展……
在這種特殊情況下,我們希望了解特定的社交線索(手勢、注視等)如何影響某人產生其他線索的可能性。我們希望我們的模型包含所有重要的屬性,所以我不願意刪除一些看起來多餘的屬性。
目前沒有任何假設。相反,這個問題沒有得到研究,我們正在尋求更好地了解哪些屬性是重要的。據我所知,這些屬性應該是相對獨立的(你不能只說凝視和手勢是相同的,或者是另一個的子集)。能夠報告所有事物的 p 值會很好,因為我們希望其他研究人員了解所研究的內容。
**編輯2:**因為它出現在下面的某個地方,我的是 24。
要了解會發生什麼,生成(和分析)以所述方式運行的數據是有益的。
為簡單起見,讓我們忘記第六個自變量。因此,問題描述了一個因變量的回歸針對五個自變量, 其中
- 每個普通回歸在水平上顯著小於.
- 多元回歸僅產生顯著係數和.
- 所有方差膨脹因子 (VIF) 都很低,表明設計矩陣中的條件良好(即,在設計矩陣之間缺乏共線性)).
讓我們按如下方式實現:
- 產生正態分佈值和. (我們會選擇之後。)
- 讓在哪裡是均值的獨立正態誤差. 需要一些試驗和錯誤才能找到合適的標準偏差;工作正常(而且相當戲劇化:與_ _和, 即使它只是中度相關和個別)。
- 讓=,, 在哪裡是獨立的標準正態誤差。這使得只是稍微依賴. 然而,通過兩者之間的緊密相關性和,這會導致兩者之間存在微小的相關性還有這些.
問題來了:如果我們做足夠大,這些輕微的相關性將導致顯著的係數,即使幾乎完全由前兩個變量“解釋”。
我找到可以很好地重現報告的 p 值。這是所有六個變量的散點圖矩陣:
通過檢查右列(或底行),您可以看到具有良好的(正)相關性和但與其他變量沒有明顯的相關性。通過檢查該矩陣的其餘部分,您可以看到自變量似乎相互不相關(隨機掩蓋我們所知道的微小的依賴關係。)沒有特殊的數據——沒有什麼特別離群或高槓桿。直方圖顯示所有六個變量都近似正態分佈,順便說一句:這些數據與人們可能想要的一樣普通和“普通”。
在回歸中反對和,p 值基本上為 0。在單個回歸中反對, 然後反對, 和反對,p 值分別為 0.0024、0.0083 和 0.00064:也就是說,它們“非常顯著”。但在完全多元回歸中,相應的 p 值分別膨脹到 0.46、0.36 和 0.52:根本不顯著。原因是曾經已經回歸和,剩下要“解釋”的唯一東西是殘差中的微小誤差,這將近似於,並且這個錯誤幾乎與剩下的完全無關. (“幾乎”是正確的:殘差部分是根據和和,, 確實有一些微弱的關係和. 但是,正如我們所見,這種殘餘關係實際上是無法檢測到的。)
設計矩陣的條件數僅為 2.17:非常低,沒有任何跡象表明存在高度多重共線性。 (完全沒有共線性將反映在條件數 1 中,但在實踐中,這僅在人工數據和設計實驗中可見。在 1-6 範圍內(甚至更高,具有更多變量)的條件數並不顯著。)這樣就完成了模擬:它成功地再現了問題的各個方面。
該分析提供的重要見解包括
- p 值並沒有直接告訴我們有關共線性的任何信息。 它們在很大程度上取決於數據量。
- 多元回歸中的 p 值和相關回歸(涉及自變量的子集)中的 p 值之間的關係是複雜的並且通常是不可預測的。
因此,正如其他人所說,p 值不應該是您選擇模型的唯一指南(甚至是您的主要指南)。
編輯
沒有必要大到讓這些現像出現。 受問題中其他信息的啟發,以下是以類似方式構建的數據集(在這種情況下為了)。這會產生 0.38 到 0.73 之間的相關性和. 設計矩陣的條件數為 9.05:有點高,但並不可怕。(一些經驗法則說,高達 10 的條件數是可以的。)針對單個回歸的 p 值分別為 0.002、0.015 和 0.008:顯著到高度顯著。因此,涉及到一些多重共線性,但它並沒有太大以至於人們會努力改變它。 基本見解保持不變:重要性和多重共線性是不同的東西;其中只有溫和的數學約束;即使沒有嚴重的多重共線性問題,即使包含或排除單個變量也可能對所有 p 值產生深遠影響。
x1 x2 x3 x4 x5 y -1.78256 -0.334959 -1.22672 -1.11643 0.233048 -2.12772 0.796957 -0.282075 1.11182 0.773499 0.954179 0.511363 0.956733 0.925203 1.65832 0.25006 -0.273526 1.89336 0.346049 0.0111112 1.57815 0.767076 1.48114 0.365872 -0.73198 -1.56574 -1.06783 -0.914841 -1.68338 -2.30272 0.221718 -0.175337 -0.0922871 1.25869 -1.05304 0.0268453 1.71033 0.0487565 -0.435238 -0.239226 1.08944 1.76248 0.936259 1.00507 1.56755 0.715845 1.50658 1.93177 -0.664651 0.531793 -0.150516 -0.577719 2.57178 -0.121927 -0.0847412 -1.14022 0.577469 0.694189 -1.02427 -1.2199 -1.30773 1.40016 -1.5949 0.506035 0.539175 0.0955259 -0.55336 1.93245 1.34462 1.15979 2.25317 1.38259 1.6934 0.192212 0.965777 0.283766 3.63855 1.86975 -0.715726 0.259011 -0.674307 0.864498 0.504759 -0.478025 -0.800315 -0.655506 0.0899015 -2.19869 -0.941662 -1.46332 -0.169604 -1.08992 -1.80457 -0.350718 0.818985 -1.2727 0.365721 1.10428 0.33128 -0.0163167 0.295945 1.48115 0.215779 2.233 0.33428 1.07424 0.815481 2.4511 1.07042 0.0490205 -0.195314 0.101451 -0.721812 1.11711 -0.478905 -0.438893 -1.54429 0.798461 -0.774219 -0.90456 1.2487 1.03267 0.958559 1.26925 1.31709 2.26846 -0.124634 -0.616711 0.334179 0.404281 0.531215 -0.747697 -1.82317 1.11467 0.407822 -0.937689 -1.90806 -0.723693 -1.34046 1.16957 0.271146 1.71505 0.910682 -0.176185