Machine-Learning
什麼是消失梯度?
我在深度學習文獻中多次看到“梯度消失”這個詞。那是什麼?梯度相對於什麼變量?輸入變量或隱藏單元?
這是否意味著梯度向量全為零?還是優化停留在局部最小值/鞍點?
如果不仔細選擇權重的初始值範圍,並且在訓練過程中不控制權重值的範圍,則會出現梯度消失,這是學習深度網絡的主要障礙。使用梯度下降算法訓練神經網絡:
在哪裡是網絡在當前訓練批次上的損失。很明顯,如果很小,學習會很慢,因為會很小。因此,如果梯度消失,學習將非常非常緩慢。 梯度消失的原因是在反向傳播過程中,早期層(靠近輸入層的層)的梯度是通過將後面的層(靠近輸出層的層)的梯度相乘得到的。因此,例如,如果後面層的梯度小於 1,它們的乘法就會很快消失。
通過這些解釋,這些是您問題的答案:
- 梯度是關於每個可訓練參數(權重和偏差)的損失梯度。
- 梯度消失並不意味著梯度向量全為零(數值下溢除外),而是意味著梯度非常小,學習會很慢。