誰發明了隨機梯度下降?
我試圖了解梯度下降和隨機梯度下降的歷史。梯度下降法於 1847年在Cauchy發明。 Méthode générale pour la résolution des systèmes d’équations simultanées。pp. 536–538 有關它的更多信息,請參見此處。
從那時起,梯度下降方法不斷發展,我不熟悉它們的歷史。特別是我對隨機梯度下降的發明很感興趣。
可以在學術論文中使用的參考文獻非常受歡迎。
*Robbins 和 Monro 在他們的論文A Stochastic Approximation Method*中首次描述了 Stochastic Gradient Descent 之前的 Stochastic Approximation 。Kiefer 和 Wolfowitz 隨後發表了他們的論文 * Stochastic Estimation of the Maximum of a Regression Function*正如 Mark Stone 在評論中指出的那樣,這對於熟悉隨機逼近的 ML 變體(即隨機梯度下降)的人來說更容易識別。60 年代,沿著這條脈絡進行了大量研究——Dvoretzky、Powell、Blum 都發表了我們今天認為理所當然的結果。從 Robbins 和 Monro 方法到 Kiefer Wolfowitz 方法是一個相對較小的飛躍,並且只是對問題的重新構建,然後再到隨機梯度下降(用於回歸問題)。上述論文被廣泛引用為隨機梯度下降的前身,正如Nocedal、Bottou 和 Curtis在這篇評論論文中所提到的,該論文從機器學習的角度提供了一個簡短的歷史視角。
我相信 Kushner 和 Yin 在他們的《隨機逼近和遞歸算法和應用》一書中暗示,這個概念早在 40 年代就已用於控制理論,但我不記得他們是否對此有過引用,或者是否軼事,我也無法訪問他們的書來確認這一點。
Herbert Robbins 和 Sutton Monro隨機近似法 數理統計年鑑,卷。22, No. 3.(1951 年 9 月),第 400-407 頁,DOI:10.1214/aoms/1177729586
J. Kiefer 和 J. Wolfowitz回歸函數最大值的隨機估計Ann。數學。統計學家。第 23 卷,第 3 期 (1952),462-466,DOI:10.1214/aoms/1177729392
Leon Bottou 和 Frank E. Curtis 和 Jorge Nocedal大規模機器學習的優化方法,技術報告,arXiv:1606.04838