Neural-Networks

為什麼神經網絡研究人員關心時代?

  • October 24, 2016

隨機梯度下降中的一個時期被定義為數據的單次傳遞。對於每個 SGD minibatch,抽取樣本,計算梯度並更新參數。在 epoch 設置中,樣本是在沒有替換的情況下抽取的。

但這似乎沒有必要。為什麼不將每個 SGD minibatch 繪製為在每次迭代時從整個數據集中隨機抽取?在大量時期內,或多或少經常看到樣本的小偏差似乎並不重要。

除了弗蘭克關於實用性的回答和大衛關於查看小子組的回答(這兩點都很重要)之外,實際上還有一些理論上的理由更喜歡不放回抽樣。原因可能與大衛的觀點有關(本質上是優惠券收集者的問題)。

2009 年,Léon Bottou 比較了特定文本分類問題的收斂性能().

博圖 (2009)。一些隨機梯度下降算法的奇怪快速收斂。學習和數據科學研討會論文集。(作者的pdf

他通過 SGD 用三種方法訓練了支持向量機:

  • 隨機:在每次迭代時從完整數據集中抽取隨機樣本。
  • Cycle:在開始學習過程之前打亂數據集,然後按順序遍歷它,以便在每個 epoch 中以相同的順序查看示例。
  • Shuffle:在每個 epoch 之前重新洗牌數據集,以便每個 epoch 以不同的順序進行。

他經驗性地檢驗了收斂性, 在哪裡是成本函數,步驟中的參數優化,並且期望超過分配批次的改組。

  • 對於 Random,收斂性大約為(正如當時現有理論所預期的那樣)。
  • 循環獲得收斂的順序(和但取決於排列,例如對於他的圖 1)。
  • 洗牌更混亂,但最適合的線給了,比 Random 快得多*。*

這是他的圖 1,說明: 以給定速率收斂的圖示

這後來在理論上得到了論文的證實:

Gürbüzbalaban、Ozdaglar 和 Parrilo(2015 年)。為什麼隨機改組勝過隨機梯度下降arXiv:1510.08560。(NIPS 2015 邀請演講視頻

他們的證明僅適用於損失函數是強凸的情況,即不適用於神經網絡。但是,可以合理地預期類似的推理可能適用於神經網絡案例(這更難分析)。

引用自:https://stats.stackexchange.com/questions/242004

comments powered by Disqus