Maximum-Likelihood

我們可以使用 MLE 來估計神經網絡的權重嗎?

  • April 11, 2015

我剛開始研究統計數據和模型的東西。目前,我的理解是我們使用 MLE 來估計模型的最佳參數。但是,當我嘗試了解神經網絡的工作原理時,似乎它們通常使用另一種方​​法來估計參數。為什麼我們不使用 MLE 或者根本可以使用 MLE?

人工神經網絡權重 (ANN) 的 MLE 估計當然是可能的;事實上,這完全是典型的。對於分類問題,標準的目標函數是交叉熵,這與二項式模型的對數似然相同。對於回歸問題,使用殘差平方誤差,這與 OLS 回歸的 MLE 相似。

但是假設從經典統計中得出的 MLE 的良好特性(例如唯一性)也適用於神經網絡的 MLE,存在一些問題。

  1. 人工神經網絡估計存在一個普遍問題:即使是單層人工神經網絡也有許多對稱解決方案。反轉隱藏層權重的符號和反轉隱藏層激活參數的符號都具有相同的似然性。此外,您可以排列任何隱藏節點,並且這些排列也具有相同的可能性。這是必然的,因為您必須承認您放棄了可識別性。但是,如果可識別性不重要,那麼您可以簡單地接受這些替代解決方案只是彼此的反映和/或排列。

這與 MLE 在統計中的經典用法(例如 OLS 回歸)形成對比:OLS 問題是凸的,並且當設計矩陣為滿秩時是嚴格凸的。強凸性意味著存在一個唯一的極小值。 2. 當使用不受約束的解決方案時,ANN 往往會過度擬合數據。權重往往會從原點跑到難以置信的大值,這些值不能很好地概括或預測新數據的準確性。施加權重衰減或其他正則化方法具有將權重估計縮小到零的效果。這不一定解決(1)中的不確定性問題,但它可以提高網絡的泛化能力。 3. 損失函數是非凸的,優化可以找到不是全局最優的局部最優解。或者這些解決方案可能是鞍點,一些優化方法在這裡停滯不前。本文的結果發現,現代估計方法迴避了這個問題。 4. 在經典的統計設置中,懲罰擬合方法,如彈性網, $ L^1 $ 或者 $ L^2 $ 正則化可以使凸問題成為秩不足(即非凸)問題。由於(1)中的排列問題,這一事實並未擴展到神經網絡設置。即使您限制參數的範數,置換權重或對稱反轉符號也不會改變參數向量的範數;它也不會改變可能性。因此,置換或反射模型的損失將保持不變,並且模型仍然無法識別。

引用自:https://stats.stackexchange.com/questions/145902

comments powered by Disqus