使用 Lasso 進行變量選擇後的推理

July 13, 2017

我正在使用 Lasso 在相對較低的維度設置（n » p）中進行特徵選擇。擬合 Lasso 模型後，我想使用具有非零係數的協變量來擬合沒有懲罰的模型。我這樣做是因為我想要 Lasso 無法給我的公正估計。我還想要無偏估計的 p 值和置信區間。

我很難找到關於這個主題的文獻。我發現的大多數文獻都是關於在 Lasso 估計上放置置信區間，而不是改裝模型。

根據我的閱讀，簡單地使用整個數據集重新擬合模型會導致不切實際的小 p 值/標準誤差。目前，樣本拆分（採用 Wasserman 和 Roeder（2014）或 Meinshausen 等人（2009）的風格）似乎是一個很好的行動方案，但我正在尋找更多建議。

有沒有人遇到過這個問題？如果是這樣，請您提供一些建議。

添加到以前的響應。您絕對應該查看 Tibshirani 及其同事最近的工作。他們開發了一個嚴格的框架來推斷套索類型方法的選擇校正 p 值和置信區間，並且還提供了一個 R 包。

看：

李，傑森 D.，等人。“精確的選擇後推斷，適用於套索。” 統計年鑑 44.3（2016 年）：907-927。（https://projecteuclid.org/euclid.aos/1460381681）

泰勒、喬納森和羅伯特 J. Tibshirani。“統計學習和選擇性推理。” 美國國家科學院院刊 112.25 (2015): 7629-7634。

R-包：

https://cran.r-project.org/web/packages/selectiveInference/index.html

引用自：https://stats.stackexchange.com/questions/291409

相關問答

有偏估計量的方差是否總是比無偏估計量小？

September 30, 2021

說黎曼和是積分的無偏估計是錯誤的嗎？

July 24, 2021

如果使用所有 PC，PCA 是否提供優勢？

July 22, 2021

如何解釋 Pearl 的 do 表示法？

June 8, 2021

傾向得分匹配的用例是什麼？

April 30, 2021

為什麼這個估計器不是無偏的？

April 3, 2021