為什麼拉普拉斯先於產生稀疏解決方案?
我瀏覽了有關正則化的文獻,經常看到將 L2 正則化與高斯先驗聯繫起來的段落,以及將 L1 與以零為中心的拉普拉斯聯繫起來的段落。
我知道這些先驗的樣子,但我不明白它是如何轉化為例如線性模型中的權重的。在 L1 中,如果我理解正確,我們期望稀疏解決方案,即某些權重將被推到完全為零。在 L2 中,我們得到了小的權重,但不是零權重。
但為什麼會發生呢?
如果我需要提供更多信息或澄清我的思路,請發表評論。
拉普拉斯分佈先驗與中值(或 L1 範數)的關係是由拉普拉斯本人發現的,他發現使用這種先驗可以估計中值而不是正態分佈的平均值(參見 Stingler,1986 或Wikipedia)。這意味著具有拉普拉斯誤差分佈的回歸估計中位數(例如分位數回歸),而正態誤差指的是 OLS 估計。
Tibshirani (1996) 也描述了您詢問的穩健先驗,他注意到貝葉斯設置中的穩健 Lasso 回歸等同於使用拉普拉斯先驗。係數的這種先驗以零為中心(變量居中)並且尾部很寬 - 因此使用它估計的大多數回歸係數最終都為零。仔細看下圖就清楚了,拉普拉斯分佈在零附近有一個峰值(分佈質量更大),而正態分佈在零附近更分散,因此非零值具有更大的概率質量。穩健先驗的其他可能性是 Cauchy 或- 分佈。
使用這樣的先驗,你更容易得到許多零值係數,一些中等大小和一些大尺寸(長尾),而使用普通先驗你得到更多中等大小的係數,而不是完全為零,但是離零也不遠。
(圖片來源 Tibshirani,1996 年)
斯蒂格勒,SM (1986)。統計史:1900 年之前的不確定性測量。馬薩諸塞州劍橋市:哈佛大學出版社的貝爾納普出版社。
Tibshirani, R. (1996)。通過套索進行回歸收縮和選擇。皇家統計學會雜誌。B 系列(方法論),267-288。
Gelman, A.、Jakulin, A.、Pittau, GM 和 Su, Y.-S。(2008 年)。邏輯和其他回歸模型的信息量較弱的默認先驗分佈。應用統計年鑑,2(4),1360-1383。
諾頓,RM(1984 年)。雙指數分佈:使用微積分找到最大似然估計。美國統計學家,38(2):135-136。