多重插補和模型選擇

December 30, 2012

當您有一個要估計的先驗線性模型時，多重插補相當簡單。但是，當您實際上想要進行一些模型選擇時，事情似乎有點棘手（例如，從更大的候選變量集中找到“最佳”的預測變量集 - 我正在特別考慮 LASSO 和使用 R 的分數多項式）。

一個想法是將模型擬合到具有缺失值的原始數據中，然後在 MI 數據集中重新估計該模型，並像往常一樣組合估計。但是，這似乎是有問題的，因為您期望有偏見（或者為什麼首先要 MI 呢？），這可能導致從一開始就選擇“錯誤”的模型。

另一個想法是通過您在每個 MI 數據集中使用的任何模型選擇過程 - 但是如果它們包含不同的變量集，您將如何組合結果？

我的一個想法是堆疊一組 MI 數據集並將它們分析為一個大型數據集，然後您將使用該數據集來擬合單個“最佳”模型，並包含一個隨機效應以說明您使用重複測量的事實每次觀察。

這聽起來合理嗎？或者也許是難以置信的天真？非常感謝有關此問題的任何指示（具有多重插補的模型選擇）。

您可以做很多事情來從多重插補數據中選擇變量，但並非所有事情都能產生適當的估計。有關各種可能性的比較，請參見Wood 等人 (2008) Stat Med。

我發現以下兩步程序在實踐中很有用。

將您喜歡的變量選擇方法獨立應用於每個 $ m $ 估算數據集。你最終會得到 $ m $ 不同的型號。對於每個變量，計算它在模型中出現的次數。選擇那些出現在至少一半的變量 $ m $ 楷模。

使用 Wald 統計量或似然比檢驗的 p 值，從 $ m $ 多重估算數據集作為進一步逐步模型選擇的標準。

包括預選步驟 1 以減少計算量。有關R中使用mice(). 在 Stata 中，您可以使用mim:stepwise.

引用自：https://stats.stackexchange.com/questions/46719

comments powered by Disqus

多重插補和模型選擇

相關問答

鍊式方程多重插補 (MICE) 解釋

插補次數和最大迭代次數如何影響多重插補的準確性？

應用魯賓規則來組合多重插補數據集

為什麼這種多重插補質量低？

在估算數據中使用鄰居信息或查找非數據（在 R 中）

如何在大量數據點中執行值的插補？