Multiple-Regression
多重插補和模型選擇
當您有一個要估計的先驗線性模型時,多重插補相當簡單。但是,當您實際上想要進行一些模型選擇時,事情似乎有點棘手(例如,從更大的候選變量集中找到“最佳”的預測變量集 - 我正在特別考慮 LASSO 和使用 R 的分數多項式)。
一個想法是將模型擬合到具有缺失值的原始數據中,然後在 MI 數據集中重新估計該模型,並像往常一樣組合估計。但是,這似乎是有問題的,因為您期望有偏見(或者為什麼首先要 MI 呢?),這可能導致從一開始就選擇“錯誤”的模型。
另一個想法是通過您在每個 MI 數據集中使用的任何模型選擇過程 - 但是如果它們包含不同的變量集,您將如何組合結果?
我的一個想法是堆疊一組 MI 數據集並將它們分析為一個大型數據集,然後您將使用該數據集來擬合單個“最佳”模型,並包含一個隨機效應以說明您使用重複測量的事實每次觀察。
這聽起來合理嗎?或者也許是難以置信的天真?非常感謝有關此問題的任何指示(具有多重插補的模型選擇)。
您可以做很多事情來從多重插補數據中選擇變量,但並非所有事情都能產生適當的估計。有關各種可能性的比較,請參見Wood 等人 (2008) Stat Med。
我發現以下兩步程序在實踐中很有用。
- 將您喜歡的變量選擇方法獨立應用於每個 $ m $ 估算數據集。你最終會得到 $ m $ 不同的型號。對於每個變量,計算它在模型中出現的次數。選擇那些出現在至少一半的變量 $ m $ 楷模。
- 使用 Wald 統計量或似然比檢驗的 p 值,從 $ m $ 多重估算數據集作為進一步逐步模型選擇的標準。
包括預選步驟 1 以減少計算量。有關R中使用
mice()
. 在 Stata 中,您可以使用mim:stepwise
.