Regression

在嶺回歸和 LASSO 中,為什麼更小bbbeta會更好?

  • March 16, 2017

誰能提供一個直觀的觀點,說明為什麼使用較小的 beta 會更好?

對於 LASSO 我可以理解,這裡有一個特徵選擇組件。更少的特徵使模型更簡單,因此不太可能過度擬合。

然而,對於嶺,所有的特徵(因子)都被保留了。只有值更小(在 L2 規範意義上)。這如何使模型更簡單?

任何人都可以對此提供直觀的看法嗎?

TL;DR - 同樣的原則適用於 LASSO 和 Ridge

更少的特徵使模型更簡單,因此不太可能過度擬合

這與嶺回歸的直覺相同——我們防止模型過度擬合數據,但我們不是針對小的、潛在的虛假變量(在 LASSO 中將其減少到零),而是針對可能誇大的最大係數它們各自的變量的情況。

L2 懲罰通常可以防止模型對任何一個變量“過分”重視,因為大係數比小係數受到的懲罰更大。

這可能看起來不像是“簡化”了模型,但它執行了類似的任務,防止模型過度擬合手頭的數據。

建立直覺的例子

舉一個具體的例子——您可能正試圖根據患者特徵預測再入院率。

在這種情況下,您可能有一個相對罕見的變量(例如一種不常見的疾病),恰好在您的訓練集中與重新入院高度相關。在一個包含 10,000 名患者的數據集中,您可能只會看到這種疾病 10 次,其中有 9 次再次入院(當然這是一個極端的例子)

因此,相對於其他變量的係數,該係數可能**很大。**通過最小化 MSE 和 L2 懲罰,這將是嶺回歸“縮小”到更小的值的一個很好的候選,因為它很少見(因此不會對 MSE 產生太大影響),並且是一個極端的係數值。

引用自:https://stats.stackexchange.com/questions/267772

comments powered by Disqus