Regression
在嶺回歸和 LASSO 中,為什麼更小bbbeta會更好?
誰能提供一個直觀的觀點,說明為什麼使用較小的 beta 會更好?
對於 LASSO 我可以理解,這裡有一個特徵選擇組件。更少的特徵使模型更簡單,因此不太可能過度擬合。
然而,對於嶺,所有的特徵(因子)都被保留了。只有值更小(在 L2 規範意義上)。這如何使模型更簡單?
任何人都可以對此提供直觀的看法嗎?
TL;DR - 同樣的原則適用於 LASSO 和 Ridge
更少的特徵使模型更簡單,因此不太可能過度擬合
這與嶺回歸的直覺相同——我們防止模型過度擬合數據,但我們不是針對小的、潛在的虛假變量(在 LASSO 中將其減少到零),而是針對可能誇大的最大係數它們各自的變量的情況。
L2 懲罰通常可以防止模型對任何一個變量“過分”重視,因為大係數比小係數受到的懲罰更大。
這可能看起來不像是“簡化”了模型,但它執行了類似的任務,防止模型過度擬合手頭的數據。
建立直覺的例子
舉一個具體的例子——您可能正試圖根據患者特徵預測再入院率。
在這種情況下,您可能有一個相對罕見的變量(例如一種不常見的疾病),恰好在您的訓練集中與重新入院高度相關。在一個包含 10,000 名患者的數據集中,您可能只會看到這種疾病 10 次,其中有 9 次再次入院(當然這是一個極端的例子)
因此,相對於其他變量的係數,該係數可能**很大。**通過最小化 MSE 和 L2 懲罰,這將是嶺回歸“縮小”到更小的值的一個很好的候選,因為它很少見(因此不會對 MSE 產生太大影響),並且是一個極端的係數值。