Regression

在線性回歸中,為什麼正則化也會懲罰參數值?

  • May 4, 2019

目前正在學習嶺回歸,我對更複雜模型的懲罰(或更複雜模型的定義)有點困惑。

據我了解,模型複雜性不一定與多項式階數相關。所以:$$ 2 + 3+ 4x^2 + 5x^3 + 6x^4 $$是一個比以下模型更複雜的模型:$$ 5x^5 $$

而且我知道正則化的目的是保持模型複雜度低,例如我們有一個五階多項式$$ f(x; w) = w_0 + w_1x + w_2x^2 + w_3x^3 + w_4x^4 + w_5x^5 $$

為 0 的參數越多越好。

但我不明白的是,如果它是同階多項式,為什麼較低的參數值會受到較少的懲罰?那麼為什麼會:

$$ 2 + 5x + x^3 $$是一個不那麼複雜的模型

$$ 433+ 342x + 323x^3 $$它們都是相同的多項式階,參數值僅取決於數據。

謝謝!

參數值僅取決於數據

這是你問題的關鍵部分。這就是你感到困惑的地方。

是的,參數值取決於數據。但是當我們擬合模型時,數據是固定的。換句話說,我們擬合了一個以觀察為條件的模型。比較適合不同數據集的不同模型的複雜性是沒有意義的。

在固定數據集的上下文中,模型

$$ 2 + 5x + x^3 $$

確實更接近最簡單的可能模型,即平零模型,而不是

$$ 433+ 342x + 323x^3, $$

無論您的觀察規模如何,這都是成立的。

順便說一句,截距( $ 2 $ 和 $ 433 $ 在您的示例中)通常不會受到懲罰,例如,在大多數 Lasso 公式中,因為我們通常擅長讓它自由變化以捕獲觀察的整體平均值。換句話說,我們將模型縮小到觀察值的平均值,而不是完全零模型(零通常是任意的)。從這個意義上說,公寓 $ 2 $ 和一個公寓 $ 433 $ 模型將被認為同樣複雜。

引用自:https://stats.stackexchange.com/questions/406568

comments powered by Disqus