正則化和投影到lll_*球

April 30, 2015

我試圖了解正則化如何在投影到球和歐幾里得投影到單純形上。

當我們將權重向量投影到或者球。

我可以理解的概念以編程方式進行正則化，例如，我們遍歷權重向量中的每個元素，並應用signum(w) * max(0.0, abs(w) - shrinkageValue)where shrinkageValue = regularizationParameter * eta，從而將小的權重設為 0。

我想我在這裡遺漏了一些數學，所以我的問題是我們如何將向量的投影轉換為我剛剛描述的程序？正則化和向量投影是如何联繫起來的？

編輯：我正在嘗試通過這篇論文Efficient Projections 到- 高維學習球

正則化和向量投影通過約束優化的思想和Karush-Kuhn（無關係）-Tucker 條件連接起來。

KKT條件是什麼？

簡而言之，這些聲明表明，如果是解決“最小化受制於“，然後也是解決問題的方法對於一些標量. 但這相當於說，意思就是最小化無約束優化問題“最小化”。

直覺是：

. 在這種情況下，是一個“內部解決方案”，所以梯度此時必須為零。（如果它不為零，我們可以從，同時保持，並且具有更高的價值. 然後我們設置我們完成了。

要么，. 在這種情況下，處於可能解空間的邊緣。在局部，這條邊看起來像一個與梯度正交的超平面，因為你維護的方式約束是根本不向上或向下移動梯度。但這意味著梯度的唯一方向可能指向的方向與–如果它有任何與正交的組件，我們可以移動朝那個方向一點點，停留在正交超平面上, 並增加.

KKT 條件如何解釋約束最小化和正則化之間的關係

如果對於一些規範和一些常數, 那麼約束意思是位於半徑球體上在那個規範下。在無約束的公式中，減去從你想要最大化的函數中最終應用正則化懲罰：你真的在減去（和常數優化無關緊要）。

人們經常利用無約束優化和約束優化之間的這種“二元性”。對於我可以通過谷歌搜索快速找到的示例，請參閱On the LASSO 及其對偶。

為什麼預測在這裡很重要？

好的，那麼為什麼有人要寫一篇關於快速預測的論文呢？

基本上，您可以進行一般約束優化的一種方法-“最大化受制於"——是做以下事情：

採用任何迭代算法來無約束地最大化

從猜測開始

採取算法的一步：

然後投影回片場：.

並重複直到收斂。

例如，這就是投影梯度下降是如何從普通梯度下降推導出來的。當然，優化你的投影功能在這里至關重要。

把它們放在一起

因此，假設您要解決 LASSO：

那是不受約束的版本。在 KKT 條件下，加入正則化項相當於將解約束在對於一些常數. 但這只是- 帶半徑的球！

所以你可以想像用投影（次）梯度下降來解決這個問題。*如果你這樣做了，你的函數將是在單位球上的投影，並且您希望使其快速。

*我認為人們實際上不會這樣做，因為有更有效的方法。但那些也可能使用預測。編輯：正如@Dougal 指出的那樣，一個更複雜的投影次梯度下降變體足以在 2008 年寫一篇關於它的論文。

引用自：https://stats.stackexchange.com/questions/149118

comments powered by Disqus

正則化和投影到lll_*球

KKT條件是什麼？

KKT 條件如何解釋約束最小化和正則化之間的關係

為什麼預測在這裡很重要？

把它們放在一起

相關問答

在訓練數據中添加噪聲如何等同於正則化？

嶺回歸應該使用一種熱編碼還是虛擬變量？

為什麼邏輯回歸在高維度上特別容易過擬合？

是否有一個典型的例子來說明嶺何時勝過套索？

在回歸中，為什麼不默認使用正則化？

LASSO 正則化和 LASSO 懲罰之間有區別嗎？