深度學習的模擬退火:為什麼無梯度統計學習不是主流?
為了定義什麼是深度學習,在主流軟件庫和文獻中經常將學習部分與反向傳播列為一項要求,而沒有其他選擇。在深度學習或一般統計學習中沒有提到很多無梯度優化。同樣,在“經典算法”(非線性最小二乘法)中涉及導數 [1]。一般來說,深度學習或經典算法中的無梯度學習並不是主流。一種有前途的替代方案是模擬退火 [2, 3],即所謂的自然啟發優化。
為什麼無梯度深度學習(統計學習)不在主流中,是否有任何內在的理論原因?(或不是首選)。
筆記
[1] 如列文伯格-馬夸特
[2]深度學習的模擬退火算法(2015)
[3] CoolMomentum: a method for stochastic optimization by Langevin dynamics with simulation annealing (2021) 雖然這仍然不是完全無梯度的,但不需要自動微分。
編輯 1使用Ensemble Kalman Filter的 附加參考,顯示了一種無導數的方法:
- 集成卡爾曼反演:機器學習任務的無導數技術arXiv:1808.03620。
- 集成卡爾曼濾波器優化深度神經網絡:非性能梯度下降彈簧的另一種方法(手稿-pdf)
編輯 2 據我所知,Yann LeCun 並不認為無梯度學習是深度學習生態系統的一部分。“DL 正在構建參數化功能模塊的網絡,並使用基於梯度的優化從示例中訓練它們。”推文
無梯度學習在主流中非常流行,但在深度學習中並未大量使用。用於訓練不涉及導數的神經網絡的方法通常稱為“元啟發式”。在計算機科學和模式識別(主要起源於電氣工程)中,元啟發式是解決 NP 難題的首選方法,例如航空公司航班調度、優化送貨卡車燃料消耗的交通路線規劃或旅行推銷員問題。退火)。作為示例,請參見用於神經網絡的基於群的學習或用於訓練神經網絡的遺傳算法或使用元啟發式算法來訓練卷積神經網絡. 這些都是使用元啟發式學習的神經網絡,而不是導數。
雖然元啟發式包含大量文獻,但它們與深度學習的關聯並不強,因為它們是不同的優化領域。查找“使用元啟發式解決 NP 難題”。最後,回想一下,用於神經網絡的梯度與神經網絡可用於最小化(最大化)的函數的導數沒有任何關係。(這將被稱為使用神經網絡的函數逼近,而不是通過神經網絡進行分類分析。)它們只是關於網絡內連接權重變化的誤差或交叉熵的導數。
此外,函數的導數可能未知,或者問題可能過於復雜而無法使用導數。一些較新的優化方法涉及有限差分作為導數的替代,因為計算時間越來越快,並且無導數方法的計算成本越來越低。