Regression

多重共線性會增加每個協變量的 beta 方差還是僅增加那些共線的協變量?

  • November 19, 2019

我知道在典型的 OLS 假設下 $$ Var(\hat{\beta}) = [X^TX]^{-1}X^T Var(\epsilon)X[[X^TX]^{-1}]^T $$ 如果有些 $ X_j $ 可以近似寫為其他協變量的線性組合,則存在多重共線性。注意定義

$$ [X^TX]^{-1} = \frac{1}{\det(X^TX)}\text{adj}(X^TX) $$ 在哪裡 $ \text{adj} $ 表示修飾語。因此,當存在多重共線性時,標準誤差是否會增加,因為

$$ \frac{1}{\det(X^TX)} $$變得非常大?如果是這樣,這是否意味著每個標準誤差都會增加 $ \hat{\beta}_j $ 還是只有選擇的?如果不是,為什麼它會變大?

我會投票支持奇異值/特徵值/特徵向量而不是行列式和佐證來解決這個問題。

TLDR:標準誤差隨著特徵值的增加而增加 $ X^TX $ 變得越來越小,這對應於損失表面中山谷的形成,代表我們越來越無法分離出候選者 $ \hat\beta $ 價值觀。


我們正在尋求最小化 $ |y - Xb|^2 $ 超過 $ b\in\mathbb R^p $ . 讓 $ X = UDV^T $ 成為的 SVD $ X $ . 作為 $ X $ 越來越接近我們將有的降級 $ d_p\to 0 $ (至少)在哪裡 $ d_p $ 是最小的奇異值。這反映了一個事實,即 $ X $ 越來越接近擁有一個非平凡的零空間,這將包括(至少) $ \text{span}(v_p) $ , 和 $ v_p $ 是最小的右奇異向量或等效的最小特徵向量 $ X^TX $ .

這意味著一旦我們得到 $ \hat\beta $ 我們可以通過替換得到幾乎相同的損失 $ \hat\beta $ 和 $ \hat\beta + \alpha v_p $ 為了 $ \alpha \in \mathbb R $ . 這表明存在幾乎相等損失的整個仿射子空間(至少對於適中的 $ \alpha $ ), 並作為 $ d_p\to 0 $ 損失將在該子空間上變得越來越等價,直到我們真的無法從中選擇一個元素,因為它們都有相同的損失。

這是描繪高方差的一種方法:當 $ b $ 導致幾乎相同的損失,數據中的輕微擾動可能導致非常不同 $ \hat\beta $ s 這基本上就是高方差的意思。

這個分析還告訴我們,雖然一些個體坐標 $ \hat\beta $ 可能會有很大的差異,這實際上是關於 $ \hat\beta $ 根據給出的基礎表示 $ V $ .


這是一個例子。我會建 $ X $ 通過採摘 $ U $ , $ D $ , 和 $ V $ .

讓 $$ V = \begin{bmatrix} 1 & 0 & 0 \ 0 & 1/\sqrt 2 & 1/\sqrt 2 \ 0 & 1/\sqrt 2 & -1/\sqrt 2 \end{bmatrix} $$ $$ D = \text{diag}(2, 1.7, .01) $$ 然後讓 $ U $ 是任何矩陣 $ \mathbb R^{n\times 3} $ 與正交列。這將導致 $$ (X^TX)^{-1} = VD^{-2}V^T \approx \begin{bmatrix} 1/4 & 0 & 0 \ 0 & 5000 & -5000 \ 0 & -5000 & 5000\end{bmatrix} $$ 所以 $ \hat\beta_1 $ 會有一個非常小的方差,但是 $ \hat\beta_2 $ 和 $ \hat\beta_3 $ 有巨大的差異,這是因為 $ Xv_3 \approx \mathbf 0 $ 所以 $ \hat\beta $ 可以被擾亂 $ (0,1,-1)^T $ 損失只有很小的變化。因此,他們的個體差異確實會變大,但我認為這更為根本。

引用自:https://stats.stackexchange.com/questions/436912

comments powered by Disqus