為什麼嶺回歸不是尺度不變的?
在第 3 章的統計學習要素中,我們知道線性回歸是尺度不變的,因為係數的尺度矩陣最終會被取消,但是嶺回歸沒有嗎?由於嶺係數的形式具有封閉形式 $$ \beta = (X^{T}X + \lambda I)^{-1}X^{T}Y, $$ 我不明白為什麼尺度不變性在這裡不成立?任何人都可以提出證明嗎?
這裡的直覺是,當您使用相同的符號時,會發生花招 $ X $ 對於原始數據和重新縮放的數據。這是誤導,因為重新縮放 $ \tilde{X}= XD $ 和原來的不一樣 $ X $ ,所以我們應該明確說明並寫下我們是如何重新縮放的。
我們可以通過考慮兩種情況來證明這一點,首先是原始單位 $ X $ 其次是我們使用重新縮放的矩陣的情況 $ \tilde{X}= XD $ 在哪裡 $ D $ 是一個對角矩陣,其對角線上的所有正項。如果 $ X $ 有形狀 $ n \times p $ 然後 $ D $ 有形狀 $ p \times p $ . (您實際上可以使用任何 $ D_{ii} \neq 0 $ 但是“重新縮放”幾乎總是意味著被限制為乘以一個正標量。)
在第一種情況下,我們有 $$ \beta(X) = (X^TX + \lambda I)^{-1}X^T y $$ 正如問題中所寫的那樣。
在第二種情況下,我們將重新縮放應用於 $ X $ 我們有 $$ \begin{aligned} \beta(\tilde{X}) &= (\tilde{X}^T\tilde{X} + \lambda I)^{-1}\tilde{X}^T y\ &= (DX^TXD + \lambda I)^{-1}D X^Ty \ &= (D(X^\top X + \lambda D^{-2})D)^{-1}DX^Ty \ &= D^{-1}(X^T X + \lambda D^{-2})^{-1}X^Ty \end{aligned} $$
(記住 $ D $ 是對角線,所以 $ D^T = D $ ).
由此我們可以得出結論,係數 $ \beta_X $ 和 $ \beta_\tilde{X} $ 只有當 $ D=I $ .
最後一行顯示重新調整兩個對係數的影響。
- 它對係數有乘法效應,正如我們根據在 OLS 情況下重新縮放時會發生的情況直覺地預期的那樣。
- 最後一行明確表示規模的變化被“吸收”在 $ \lambda $ , 並且規模的變化是 $ \beta(\tilde{X})i $ 與重新縮放的平方成反比 $ D{ii} $ . (感謝 Firebug 這個有用的建議。)