在嶺回歸和 LASSO 中，為什麼更小bbbeta會更好？

March 16, 2017

誰能提供一個直觀的觀點，說明為什麼使用較小的 beta 會更好？

對於 LASSO 我可以理解，這裡有一個特徵選擇組件。更少的特徵使模型更簡單，因此不太可能過度擬合。

然而，對於嶺，所有的特徵（因子）都被保留了。只有值更小（在 L2 規範意義上）。這如何使模型更簡單？

任何人都可以對此提供直觀的看法嗎？

TL;DR - 同樣的原則適用於 LASSO 和 Ridge

更少的特徵使模型更簡單，因此不太可能過度擬合

這與嶺回歸的直覺相同——我們防止模型過度擬合數據，但我們不是針對小的、潛在的虛假變量（在 LASSO 中將其減少到零），而是針對可能誇大的最大係數它們各自的變量的情況。

L2 懲罰通常可以防止模型對任何一個變量“過分”重視，因為大係數比小係數受到的懲罰更大。

這可能看起來不像是“簡化”了模型，但它執行了類似的任務，防止模型過度擬合手頭的數據。

建立直覺的例子

舉一個具體的例子——您可能正試圖根據患者特徵預測再入院率。

在這種情況下，您可能有一個相對罕見的變量（例如一種不常見的疾病），恰好在您的訓練集中與重新入院高度相關。在一個包含 10,000 名患者的數據集中，您可能只會看到這種疾病 10 次，其中有 9 次再次入院（當然這是一個極端的例子）

因此，相對於其他變量的係數，該係數可能**很大。**通過最小化 MSE 和 L2 懲罰，這將是嶺回歸“縮小”到更小的值的一個很好的候選，因為它很少見（因此不會對 MSE 產生太大影響），並且是一個極端的係數值。

引用自：https://stats.stackexchange.com/questions/267772

在嶺回歸和 LASSO 中，為什麼更小bbbeta會更好？

TL;DR - 同樣的原則適用於 LASSO 和 Ridge

建立直覺的例子

相關問答

在訓練數據中添加噪聲如何等同於正則化？

為什麼嶺回歸不是尺度不變的？

嶺回歸應該使用一種熱編碼還是虛擬變量？

統計學習要素中的圖 3.6 是否正確？

證明嶺回歸是嚴格凸的

為什麼邏輯回歸在高維度上特別容易過擬合？