誰發明了隨機梯度下降？

November 14, 2017

我試圖了解梯度下降和隨機梯度下降的歷史。梯度下降法於 1847年在Cauchy發明。 Méthode générale pour la résolution des systèmes d’équations simultanées。pp. 536–538 有關它的更多信息，請參見此處。

從那時起，梯度下降方法不斷發展，我不熟悉它們的歷史。特別是我對隨機梯度下降的發明很感興趣。

可以在學術論文中使用的參考文獻非常受歡迎。

*Robbins 和 Monro 在他們的論文A Stochastic Approximation Method*中首次描述了 Stochastic Gradient Descent 之前的 Stochastic Approximation 。Kiefer 和 Wolfowitz 隨後發表了他們的論文 * Stochastic Estimation of the Maximum of a Regression Function*正如 Mark Stone 在評論中指出的那樣，這對於熟悉隨機逼近的 ML 變體（即隨機梯度下降）的人來說更容易識別。60 年代，沿著這條脈絡進行了大量研究——Dvoretzky、Powell、Blum 都發表了我們今天認為理所當然的結果。從 Robbins 和 Monro 方法到 Kiefer Wolfowitz 方法是一個相對較小的飛躍，並且只是對問題的重新構建，然後再到隨機梯度下降（用於回歸問題）。上述論文被廣泛引用為隨機梯度下降的前身，正如Nocedal、Bottou 和 Curtis在這篇評論論文中所提到的，該論文從機器學習的角度提供了一個簡短的歷史視角。

我相信 Kushner 和 Yin 在他們的《隨機逼近和遞歸算法和應用》一書中暗示，這個概念早在 40 年代就已用於控制理論，但我不記得他們是否對此有過引用，或者是否軼事，我也無法訪問他們的書來確認這一點。

Herbert Robbins 和 Sutton Monro隨機近似法數理統計年鑑，卷。22, No. 3.（1951 年 9 月），第 400-407 頁，DOI：10.1214/aoms/1177729586

J. Kiefer 和 J. Wolfowitz回歸函數最大值的隨機估計Ann。數學。統計學家。第 23 卷，第 3 期 (1952)，462-466，DOI：10.1214/aoms/1177729392

Leon Bottou 和 Frank E. Curtis 和 Jorge Nocedal大規模機器學習的優化方法，技術報告，arXiv:1606.04838

引用自：https://stats.stackexchange.com/questions/313681

誰發明了隨機梯度下降？

相關問答

泊松分佈的原始推導是什麼？

參考：誰引入波浪號“~”表示“有概率分佈……”？

支持向量機是作為一種有效訓練神經網絡的方法而開發的嗎？

術語“逆概率”究竟是什麼意思？

為什麼R對卷積有不同的定義？

邏輯函數從何而來？