為什麼拉普拉斯先於產生稀疏解決方案？

October 16, 2015

我瀏覽了有關正則化的文獻，經常看到將 L2 正則化與高斯先驗聯繫起來的段落，以及將 L1 與以零為中心的拉普拉斯聯繫起來的段落。

我知道這些先驗的樣子，但我不明白它是如何轉化為例如線性模型中的權重的。在 L1 中，如果我理解正確，我們期望稀疏解決方案，即某些權重將被推到完全為零。在 L2 中，我們得到了小的權重，但不是零權重。

但為什麼會發生呢？

如果我需要提供更多信息或澄清我的思路，請發表評論。

拉普拉斯分佈先驗與中值（或 L1 範數）的關係是由拉普拉斯本人發現的，他發現使用這種先驗可以估計中值而不是正態分佈的平均值（參見 Stingler，1986 或Wikipedia）。這意味著具有拉普拉斯誤差分佈的回歸估計中位數（例如分位數回歸），而正態誤差指的是 OLS 估計。

Tibshirani (1996) 也描述了您詢問的穩健先驗，他注意到貝葉斯設置中的穩健 Lasso 回歸等同於使用拉普拉斯先驗。係數的這種先驗以零為中心（變量居中）並且尾部很寬 - 因此使用它估計的大多數回歸係數最終都為零。仔細看下圖就清楚了，拉普拉斯分佈在零附近有一個峰值（分佈質量更大），而正態分佈在零附近更分散，因此非零值具有更大的概率質量。穩健先驗的其他可能性是 Cauchy 或- 分佈。

使用這樣的先驗，你更容易得到許多零值係數，一些中等大小和一些大尺寸（長尾），而使用普通先驗你得到更多中等大小的係數，而不是完全為零，但是離零也不遠。

（圖片來源 Tibshirani，1996 年）

斯蒂格勒，SM (1986)。統計史：1900 年之前的不確定性測量。馬薩諸塞州劍橋市：哈佛大學出版社的貝爾納普出版社。

Tibshirani, R. (1996)。通過套索進行回歸收縮和選擇。皇家統計學會雜誌。B 系列（方法論），267-288。

Gelman, A.、Jakulin, A.、Pittau, GM 和 Su, Y.-S。（2008 年）。邏輯和其他回歸模型的信息量較弱的默認先驗分佈。應用統計年鑑，2（4），1360-1383。

諾頓，RM（1984 年）。雙指數分佈：使用微積分找到最大似然估計。美國統計學家，38（2）：135-136。

引用自：https://stats.stackexchange.com/questions/177210

comments powered by Disqus

為什麼拉普拉斯先於產生稀疏解決方案？

相關問答

在貝葉斯模型中，您可以使用 Uniform(-inf, inf) 作為先驗嗎？

為什麼指數族在統計學中如此重要？

在訓練數據中添加噪聲如何等同於正則化？

在實踐中如何實現神經網絡參數的先驗分佈？

貝葉斯分析僅用作計算工具？

貝葉斯如何解釋磷(X=x|θ=c)磷(X=X|θ=C)P(X=x|theta=c)，這在解釋後驗時是否構成挑戰？