Multiple-Regression

可以(應該?)在隨機效應模型中使用正則化技術嗎?

  • March 14, 2014

通過正則化技術,我指的是套索、嶺回歸、彈性網等。

考慮一個包含人口統計和診斷數據的醫療保健數據預測模型,其中預測住院時間。對於一些人來說,在基線時間段內有多個 LOS 觀察(即不止一個 IP 事件),它們是相關的。

例如,構建一個包含每個個體的隨機效應截距項的彈性網絡預測模型是否有意義?

有幾篇論文涉及這個問題。我不會按特殊順序查找:

  1. Pen.LME:Howard D Bondell、Arun Krishna 和 Sujit K Ghosh。線性混合效應模型中固定和隨機效應的聯合變量選擇。生物識別,66(4):1069-1077,2010。
  2. GLMMLASSO:Jurg Schelldorfer、Peter Buhlmann、Sara van de Geer。使用 L1 懲罰的高維線性混合效應模型的估計。斯堪的納維亞統計雜誌,38(2):197-214,2011。

可以在網上找到。

我碰巧現在正在完成一篇關於將彈性淨懲罰應用於混合模型 (LMMEN) 的論文,併計劃在下個月將其發送給期刊審閱。

  1. LMMEN:西迪、里托夫、昂格爾。基於彈性網絡懲罰的線性混合模型的正則化和分類

總而言之,如果您要對不正常或沒有身份鏈接的數據進行建模,我會選擇 GLMMLASSO,(但要注意它無法處理大量 RE)。否則 Pen.LME 很好,因為您沒有高度相關的數據,無論是固定效應還是隨機效應。在後一種情況下,您可以郵寄給我,我很樂意向您發送代碼/論文(我將在不久的將來將其放在 cran 上)。

我今天上傳到 CRAN - lmmen。它解決了線性混合模型問題,同時對固定效應和隨機效應使用彈性網類型的懲罰。

在其中還有lmmlassoglmmLasso包的包 cv 函數。

引用自:https://stats.stackexchange.com/questions/90055

comments powered by Disqus