正則化和投影到lll_*球
我試圖了解正則化如何在投影到球和歐幾里得投影到單純形上。
當我們將權重向量投影到或者球。
我可以理解的概念以編程方式進行正則化,例如,我們遍歷權重向量中的每個元素,並應用
signum(w) * max(0.0, abs(w) - shrinkageValue)
whereshrinkageValue = regularizationParameter * eta
,從而將小的權重設為 0。我想我在這裡遺漏了一些數學,所以我的問題是我們如何將向量的投影轉換為我剛剛描述的程序?正則化和向量投影是如何联繫起來的?
編輯:我正在嘗試通過這篇論文Efficient Projections 到- 高維學習球
正則化和向量投影通過約束優化的思想和Karush-Kuhn(無關係)-Tucker 條件連接起來。
KKT條件是什麼?
簡而言之,這些聲明表明,如果是解決“最小化受制於“, 然後也是解決問題的方法對於一些標量. 但這相當於說, 意思就是最小化無約束優化問題“最小化”。
直覺是:
- . 在這種情況下,是一個“內部解決方案”,所以梯度此時必須為零。(如果它不為零,我們可以從,同時保持,並且具有更高的價值. 然後我們設置我們完成了。
- 要么,. 在這種情況下,處於可能解空間的邊緣。在局部,這條邊看起來像一個與梯度正交的超平面,因為你維護的方式約束是根本不向上或向下移動梯度。但這意味著梯度的唯一方向可能指向的方向與–如果它有任何與正交的組件,我們可以移動朝那個方向一點點,停留在正交超平面上, 並增加.
KKT 條件如何解釋約束最小化和正則化之間的關係
如果對於一些規範和一些常數, 那麼約束意思是位於半徑球體上在那個規範下。在無約束的公式中,減去從你想要最大化的函數中最終應用正則化懲罰:你真的在減去(和常數優化無關緊要)。
人們經常利用無約束優化和約束優化之間的這種“二元性”。對於我可以通過谷歌搜索快速找到的示例,請參閱On the LASSO 及其對偶。
為什麼預測在這裡很重要?
好的,那麼為什麼有人要寫一篇關於快速預測的論文呢?
基本上,您可以進行一般約束優化的一種方法-“最大化受制於"——是做以下事情:
- 採用任何迭代算法來無約束地最大化
- 從猜測開始
- 採取算法的一步:
- 然後投影回片場:.
- 並重複直到收斂。
例如,這就是投影梯度下降是如何從普通梯度下降推導出來的。當然,優化你的投影功能在這里至關重要。
把它們放在一起
因此,假設您要解決 LASSO:
那是不受約束的版本。在 KKT 條件下,加入正則化項相當於將解約束在對於一些常數. 但這只是- 帶半徑的球!
所以你可以想像用投影(次)梯度下降來解決這個問題。*如果你這樣做了,你的函數將是在單位球上的投影,並且您希望使其快速。
*我認為人們實際上不會這樣做,因為有更有效的方法。但那些也可能使用預測。編輯:正如@Dougal 指出的那樣,一個更複雜的投影次梯度下降變體足以在 2008 年寫一篇關於它的論文。