Machine-Learning

經過一定次數的迭代後，成本函數變成了 nan

January 28, 2018

我有一個問題，想听聽社區怎麼說。假設您正在訓練一個深度學習神經網絡。實施細節與我的問題無關。我很清楚，如果你選擇的學習率太大，你最終會得到一個可能變成 nan 的成本函數（例如，如果你使用 sigmoid 激活函數）。假設我使用交叉熵作為成本函數。典型的二元分類（甚至是使用 softmax 的多類）問題。我也知道為什麼會這樣。我經常觀察到以下行為：我的成本函數很好地降低了，但經過一定數量的 epoch 後，它變成了 nan。降低學習率會使這種情況在以後發生（所以在更多的時期之後）。這真的是因為（例如）梯度下降在非常接近最小值後無法穩定自身並開始瘋狂反彈嗎？我認為該算法不會完全收斂到最小值，但應該圍繞它振盪，在那里或多或少保持穩定……想法？

好吧，如果您在成本函數中獲得 NaN 值，則意味著輸入在函數域之外。例如 0 的對數。或者它可能在解析域中，但由於數值錯誤，我們會遇到同樣的問題（例如，一個小值被四捨五入為 0）。這與無法“安定”無關。

因此，您必須確定給定成本函數的不允許的函數輸入值是什麼。然後，您必須確定為什麼要將該輸入輸入到成本函數中。您可能必須更改輸入數據的縮放比例和權重初始化。或者你只需要像 Avis 建議的那樣具有自適應學習率，因為成本函數環境可能非常混亂。或者可能是因為其他原因，例如架構中某些層的數值問題。

使用深度網絡很難說，但我建議您開始查看輸入值到您的成本函數（激活層的輸出）的進展，並嘗試確定原因。

引用自：https://stats.stackexchange.com/questions/325451

comments powered by Disqus

相關問答

Machine-Learning

一個神經網絡可以只用111隱藏層解決了什麼問題？

February 8, 2022

Machine-Learning

深度學習的模擬退火：為什麼無梯度統計學習不是主流？

January 5, 2022

Machine-Learning

哪個是第一位的 - 領域專業知識或實驗方法？

December 30, 2021

Neural-Networks

神經網絡可以處理負輸入和零輸入嗎？

December 22, 2021

Neural-Networks

在實踐中如何實現神經網絡參數的先驗分佈？

September 28, 2021

Machine-Learning

基礎模型：它是統計和機器學習的新範式嗎？

September 17, 2021