多重共線性會增加每個協變量的 beta 方差還是僅增加那些共線的協變量？

November 19, 2019

我知道在典型的 OLS 假設下 $$ Var(\hat{\beta}) = [X^TX]^{-1}X^T Var(\epsilon)X[[X^TX]^{-1}]^T $$ 如果有些 $ X_j $ 可以近似寫為其他協變量的線性組合，則存在多重共線性。注意定義

$$ [X^TX]^{-1} = \frac{1}{\det(X^TX)}\text{adj}(X^TX) $$ 在哪裡 $ \text{adj} $ 表示修飾語。因此，當存在多重共線性時，標準誤差是否會增加，因為

$$ \frac{1}{\det(X^TX)} $$變得非常大？如果是這樣，這是否意味著每個標準誤差都會增加 $ \hat{\beta}_j $ 還是只有選擇的？如果不是，為什麼它會變大？

我會投票支持奇異值/特徵值/特徵向量而不是行列式和佐證來解決這個問題。

TLDR：標準誤差隨著特徵值的增加而增加 $ X^TX $ 變得越來越小，這對應於損失表面中山谷的形成，代表我們越來越無法分離出候選者 $ \hat\beta $ 價值觀。

我們正在尋求最小化 $ |y - Xb|^2 $ 超過 $ b\in\mathbb R^p $ . 讓 $ X = UDV^T $ 成為的 SVD $ X $ . 作為 $ X $ 越來越接近我們將有的降級 $ d_p\to 0 $ （至少）在哪裡 $ d_p $ 是最小的奇異值。這反映了一個事實，即 $ X $ 越來越接近擁有一個非平凡的零空間，這將包括（至少） $ \text{span}(v_p) $ ，和 $ v_p $ 是最小的右奇異向量或等效的最小特徵向量 $ X^TX $ .

這意味著一旦我們得到 $ \hat\beta $ 我們可以通過替換得到幾乎相同的損失 $ \hat\beta $ 和 $ \hat\beta + \alpha v_p $ 為了 $ \alpha \in \mathbb R $ . 這表明存在幾乎相等損失的整個仿射子空間（至少對於適中的 $ \alpha $ ），並作為 $ d_p\to 0 $ 損失將在該子空間上變得越來越等價，直到我們真的無法從中選擇一個元素，因為它們都有相同的損失。

這是描繪高方差的一種方法：當 $ b $ 導致幾乎相同的損失，數據中的輕微擾動可能導致非常不同 $ \hat\beta $ s 這基本上就是高方差的意思。

這個分析還告訴我們，雖然一些個體坐標 $ \hat\beta $ 可能會有很大的差異，這實際上是關於 $ \hat\beta $ 根據給出的基礎表示 $ V $ .

這是一個例子。我會建 $ X $ 通過採摘 $ U $ , $ D $ ，和 $ V $ .

讓 $$ V = \begin{bmatrix} 1 & 0 & 0 \ 0 & 1/\sqrt 2 & 1/\sqrt 2 \ 0 & 1/\sqrt 2 & -1/\sqrt 2 \end{bmatrix} $$ $$ D = \text{diag}(2, 1.7, .01) $$ 然後讓 $ U $ 是任何矩陣 $ \mathbb R^{n\times 3} $ 與正交列。這將導致 $$ (X^TX)^{-1} = VD^{-2}V^T \approx \begin{bmatrix} 1/4 & 0 & 0 \ 0 & 5000 & -5000 \ 0 & -5000 & 5000\end{bmatrix} $$ 所以 $ \hat\beta_1 $ 會有一個非常小的方差，但是 $ \hat\beta_2 $ 和 $ \hat\beta_3 $ 有巨大的差異，這是因為 $ Xv_3 \approx \mathbf 0 $ 所以 $ \hat\beta $ 可以被擾亂 $ (0,1,-1)^T $ 損失只有很小的變化。因此，他們的個體差異確實會變大，但我認為這更為根本。

引用自：https://stats.stackexchange.com/questions/436912

comments powered by Disqus

多重共線性會增加每個協變量的 beta 方差還是僅增加那些共線的協變量？

相關問答

為什麼多重共線性與相關性不同？

線性回歸和最小二乘回歸一定是一回事嗎？

當因變量不是正態分佈時，OLS 估計量遵循什麼分佈？

使用牛頓法優化 OLS

為什麼線性回歸假設在機器學習中不重要？

回歸模型中係數的標準誤差的含義？