Machine-Learning

什麼是消失梯度?

  • September 4, 2017

我在深度學習文獻中多次看到“梯度消失”這個詞。那是什麼?梯度相對於什麼變量?輸入變量或隱藏單元?

這是否意味著梯度向量全為零?還是優化停留在局部最小值/鞍點?

如果不仔細選擇權重的初始值範圍,並且在訓練過程中不控制權重值的範圍,則會出現梯度消失,這是學習深度網絡的主要障礙。使用梯度下降算法訓練神經網絡:

在哪裡是網絡在當前訓練批次上的損失。很明顯,如果很小,學習會很慢,因為會很小。因此,如果梯度消失,學習將非常非常緩慢。 梯度消失的原因是在反向傳播過程中,早期層(靠近輸入層的層)的梯度是通過將後面的層(靠近輸出層的層)的梯度相乘得到的。因此,例如,如果後面層的梯度小於 1,它們的乘法就會很快消失。

通過這些解釋,這些是您問題的答案:

  • 梯度是關於每個可訓練參數(權重和偏差)的損失梯度。
  • 梯度消失並不意味著梯度向量全為零(數值下溢除外),而是意味著梯度非常小,學習會很慢。

引用自:https://stats.stackexchange.com/questions/301285

comments powered by Disqus