Machine-Learning

什麼是消失梯度？

September 4, 2017

我在深度學習文獻中多次看到“梯度消失”這個詞。那是什麼？梯度相對於什麼變量？輸入變量或隱藏單元？

這是否意味著梯度向量全為零？還是優化停留在局部最小值/鞍點？

如果不仔細選擇權重的初始值範圍，並且在訓練過程中不控制權重值的範圍，則會出現梯度消失，這是學習深度網絡的主要障礙。使用梯度下降算法訓練神經網絡：

在哪裡是網絡在當前訓練批次上的損失。很明顯，如果很小，學習會很慢，因為會很小。因此，如果梯度消失，學習將非常非常緩慢。梯度消失的原因是在反向傳播過程中，早期層（靠近輸入層的層）的梯度是通過將後面的層（靠近輸出層的層）的梯度相乘得到的。因此，例如，如果後面層的梯度小於 1，它們的乘法就會很快消失。

通過這些解釋，這些是您問題的答案：

梯度是關於每個可訓練參數（權重和偏差）的損失梯度。

梯度消失並不意味著梯度向量全為零（數值下溢除外），而是意味著梯度非常小，學習會很慢。

引用自：https://stats.stackexchange.com/questions/301285

相關問答

Machine-Learning

一個神經網絡可以只用111隱藏層解決了什麼問題？

February 8, 2022

Machine-Learning

深度學習的模擬退火：為什麼無梯度統計學習不是主流？

January 5, 2022

Machine-Learning

哪個是第一位的 - 領域專業知識或實驗方法？

December 30, 2021

Neural-Networks

神經網絡可以處理負輸入和零輸入嗎？

December 22, 2021

Neural-Networks

在實踐中如何實現神經網絡參數的先驗分佈？

September 28, 2021

Machine-Learning

基礎模型：它是統計和機器學習的新範式嗎？

September 17, 2021