Regression
使用 Lasso 進行變量選擇後的推理
我正在使用 Lasso 在相對較低的維度設置(n » p)中進行特徵選擇。擬合 Lasso 模型後,我想使用具有非零係數的協變量來擬合沒有懲罰的模型。我這樣做是因為我想要 Lasso 無法給我的公正估計。我還想要無偏估計的 p 值和置信區間。
我很難找到關於這個主題的文獻。我發現的大多數文獻都是關於在 Lasso 估計上放置置信區間,而不是改裝模型。
根據我的閱讀,簡單地使用整個數據集重新擬合模型會導致不切實際的小 p 值/標準誤差。目前,樣本拆分(採用 Wasserman 和 Roeder(2014)或 Meinshausen 等人(2009)的風格)似乎是一個很好的行動方案,但我正在尋找更多建議。
有沒有人遇到過這個問題?如果是這樣,請您提供一些建議。
添加到以前的響應。您絕對應該查看 Tibshirani 及其同事最近的工作。他們開發了一個嚴格的框架來推斷套索類型方法的選擇校正 p 值和置信區間,並且還提供了一個 R 包。
看:
李,傑森 D.,等人。“精確的選擇後推斷,適用於套索。” 統計年鑑 44.3(2016 年):907-927。(https://projecteuclid.org/euclid.aos/1460381681)
泰勒、喬納森和羅伯特 J. Tibshirani。“統計學習和選擇性推理。” 美國國家科學院院刊 112.25 (2015): 7629-7634。
R-包:
https://cran.r-project.org/web/packages/selectiveInference/index.html