Multicollinearity
是否有理由更喜歡特定的多重共線性度量?
在處理許多輸入變量時,我們經常關心多重共線性。有許多多重共線性測量方法可用於檢測、思考和/或傳達多重共線性。一些常見的建議是:
- 多重 $ R^2_j $ 對於特定變量
- 寬容, $ 1-R^2_j $ , 對於特定變量
- 方差膨脹因子, $ \text{VIF}=\frac{1}{\text{tolerance}} $ , 對於特定變量
- 設計矩陣整體的條件數:
$$ \sqrt{\frac{\text{max(eigenvalue(X’X))}}{\text{min(eigenvalue(X’X))}}} $$
(在 Wikipedia 文章中討論了其他一些選項,這裡在R 的上下文中討論了 SO 。)
前三個是彼此完美功能的事實表明,它們之間唯一可能的淨優勢將是心理上的。另一方面,前三個允許您單獨檢查變量,這可能是一個優勢,但我聽說條件數方法被認為是最好的。
- 這是真的?最適合什麼?
- 條件數是 $ R^2_j $ 的?(我認為會的。)
- 人們是否發現其中一個最容易解釋?(我從未試圖在課外解釋這些數字,我只是對多重共線性給出一個鬆散的、定性的描述。)
早在 1990 年代後期,我就完成了關於共線性的論文。
我的結論是條件指數最好。
主要原因是,它可以讓您查看變量集,而不是查看**單個變量。由於共線性是一組變量的函數,這是一件好事。
此外,我的蒙特卡洛研究結果顯示出對有問題的共線性更好的敏感性,但我早就忘記了細節。
另一方面,這可能是最難解釋的。很多人都知道什麼是。只有一小部分人聽說過特徵值。但是,當我使用條件索引作為診斷工具時,從未有人要求我作出解釋。
有關這方面的更多信息,請查看 David Belsley 的書籍。或者,如果你真的想,你可以得到我的論文多重回歸的多重共線性診斷:蒙特卡洛研究