是否有理由更喜歡特定的多重共線性度量？

January 29, 2013

在處理許多輸入變量時，我們經常關心多重共線性。有許多多重共線性測量方法可用於檢測、思考和/或傳達多重共線性。一些常見的建議是：

多重 $ R^2_j $ 對於特定變量

寬容， $ 1-R^2_j $ , 對於特定變量

方差膨脹因子， $ \text{VIF}=\frac{1}{\text{tolerance}} $ , 對於特定變量

設計矩陣整體的條件數：

$$ \sqrt{\frac{\text{max(eigenvalue(X’X))}}{\text{min(eigenvalue(X’X))}}} $$

（在 Wikipedia 文章中討論了其他一些選項，這裡在R 的上下文中討論了 SO 。）

前三個是彼此完美功能的事實表明，它們之間唯一可能的淨優勢將是心理上的。另一方面，前三個允許您單獨檢查變量，這可能是一個優勢，但我聽說條件數方法被認為是最好的。

這是真的？最適合什麼？

條件數是 $ R^2_j $ 的？（我認為會的。）

人們是否發現其中一個最容易解釋？（我從未試圖在課外解釋這些數字，我只是對多重共線性給出一個鬆散的、定性的描述。）

早在 1990 年代後期，我就完成了關於共線性的論文。

我的結論是條件指數最好。

主要原因是，它可以讓您查看變量集，而不是查看**單個變量。由於共線性是一組變量的函數，這是一件好事。

此外，我的蒙特卡洛研究結果顯示出對有問題的共線性更好的敏感性，但我早就忘記了細節。

另一方面，這可能是最難解釋的。很多人都知道什麼是。只有一小部分人聽說過特徵值。但是，當我使用條件索引作為診斷工具時，從未有人要求我作出解釋。

有關這方面的更多信息，請查看 David Belsley 的書籍。或者，如果你真的想，你可以得到我的論文多重回歸的多重共線性診斷：蒙特卡洛研究

引用自：https://stats.stackexchange.com/questions/48822

comments powered by Disqus

是否有理由更喜歡特定的多重共線性度量？

相關問答