Neural-Networks

L2 正則化常數

  • December 3, 2017

在實現神經網絡(或其他學習算法)時,我們通常希望規範化我們的參數通過 L2 正則化。我們通常通過向成本函數添加正則化項來做到這一點,如下所示:

然後我們繼續最小化這個成本函數,希望當我們達到最小值時,我們得到的模型比沒有正則化的模型具有更少的過度擬合。據我所知,這是 L2 正則化方法(也是在深度學習庫中實現的一種)。讓我知道我是否犯了任何錯誤。

我的問題是:由於正則化因子與模型中的參數總數無關,在我看來,參數越多,第二項自然就越大。例如,如果一個模型有 3 億個參數,並且我設置,第二個任期可能很大。那麼,是否是標準做法,以減少以某種方式來解釋模型中的大量參數,還是可以簡單地接受以巨大的成本開始?在我看來,如果我們不以某種方式擴展與參數數量成反比,即使用大量參數,同時保持常數,意味著我們將有更強的正則化效果,因為第二項將強制參數更加嚴格。第二個任期將超過第一個任期。不過,我在遇到的任何資源中都沒有提到這樣做,所以我想知道我的分析是否在某個地方根本上是錯誤的。

您的觀察是絕對正確的,參數的數量會影響正則化成本。

我認為沒有任何經驗法則值(但會被認為是大的)。如果交叉驗證太耗時,您可以保留一部分訓練數據並調整使用早停。您仍然需要嘗試幾個值常見的做法是嘗試類似.

對於非常大的網絡,使用其他正則化方法可能更方便,例如dropout,而不是正則化。

引用自:https://stats.stackexchange.com/questions/316961

comments powered by Disqus