Neural-Networks

神經網絡權重衰減和學習率的區別

  • May 25, 2012

在神經網絡的背景下,學習率和權重衰減有什麼區別?

學習率是一個參數,它決定了更新步驟對權重當前值的影響程度。而權重衰減是權重更新規則中的一個附加項,如果沒有安排其他更新,它會導致權重指數衰減到零。

所以假設我們有一個成本或誤差函數我們想要最小化的。梯度下降告訴我們修改權重在下降最陡的方向:

在哪裡是學習率,如果它很大,您將對權重進行相應較大的修改(通常它不應該太大,否則你會超過成本函數中的局部最小值)。 為了有效限制模型中自由參數的數量以避免過度擬合,可以對成本函數進行正則化。一種簡單的方法是在權重上引入零均值高斯先驗,這相當於將成本函數更改為. 在實踐中,這會懲罰大權重並有效地限制模型的自由度。正則化參數決定你如何權衡原始成本與大權重懲罰。

將梯度下降應用於這個新的成本函數,我們得到:

新名詞來自正則化導致權重與其大小成比例衰減。

引用自:https://stats.stackexchange.com/questions/29130

comments powered by Disqus