Optimization

坐標與梯度下降

  • April 14, 2015

我想知道Coordinate DescentGradient Descent這兩種算法的不同用例是什麼。

我知道坐標下降在非平滑函數方面存在問題,但它用於 SVM 和 LASSO 等流行算法。

然而,我認為梯度下降的使用範圍更廣,尤其是隨著人工神經網絡的複興,以及許多其他機器學習任務。

我的問題是:什麼類型的問題適合其中一個而不適合另一個,在這方面,是什麼讓坐標下降適合 SVM 和 LASSO,而梯度下降適合 ANN?

在選擇優化算法時應該如何在兩者之間進行選擇?

我認為這通常是計算函數平滑部分的梯度和/或懲罰的近端算子的簡單/容易程度的問題。

有時,在單個變量(或一個塊或多個變量)的情況下找到問題的精確解決方案要比同時解決所有變量要簡單得多。有時,與單個導數相比,計算梯度太昂貴了。此外,坐標下降的收斂與 ista 相同,, 在哪裡是迭代次數,但與 ISTA 和 FISTA 相比,它有時可能表現得更好,參見例如 http://statweb.stanford.edu/~tibs/comparison.txt

例如,這些事情將影響坐標下降與 ISTA/FISTA 的選擇。

引用自:https://stats.stackexchange.com/questions/146317

comments powered by Disqus