Missing-Data

結果變量的多重插補

  • December 19, 2012

我有一個關於農業試驗的數據集。我的響應變量是響應比:log(治療/控制)。我對調節差異的因素感興趣,所以我正在運行 RE 元回歸(未加權,因為似乎很清楚,效應大小與估計的方差不相關)。

每項研究都報告穀物產量、生物量產量或兩者兼而有之。我不能從僅報告生物量產量的研究中估算穀物產量,因為並非所有研究的植物都對穀物有用(例如甘蔗)。但是每一種生產穀物的植物也有生物量。

對於缺失的協變量,我一直在使用迭代回歸插補(遵循 Andrew Gelman 的教科書章節)。似乎給出了合理的結果,整個過程總體上是直觀的。基本上我預測缺失值,並使用這些預測值來預測缺失值,並遍歷每個變量,直到每個變量近似收斂(分佈)。

我有什麼理由不能使用相同的過程來估算缺失的結果數據?考慮到穀物響應比、作物類型和我擁有的其他協變量,我可能可以為生物量響應比形成一個信息量相對豐富的插補模型。然後我會平均係數和 VCV,並按照標準做法添加 MI 校正。

但是,當結果本身被估算時,這些係數衡量的是什麼?係數的解釋與協變量的標準 MI 有什麼不同嗎?想一想,我無法說服自己這不起作用,但我不確定。歡迎對閱讀材料提出想法和建議。

正如您所懷疑的,對結果度量使用多重插補是有效的。在某些情況下,這很有用,但也可能存在風險。我考慮了所有協變量都完整且結果不完整的情況。

如果插補模型是正確的,我們將從插補數據中獲得對參數估計的有效推論。如果缺失與在預測變量條件下(即在 MNAR 下)後的結果相關,則僅從完整案例中獲得的推論實際上可能是錯誤的。因此,如果我們知道(或懷疑)數據是 MNAR,則插補很有用。

在 MAR 下,估算結果通常沒有任何好處,並且對於少量的估算,由於模擬誤差,結果甚至可能在某種程度上更具可變性。有一個重要的例外。如果我們可以訪問一個不屬於模型並且與結果高度相關的輔助完整變量,則插補可能比完整案例分析更有效,從而產生更精確的估計和更短的置信區間。發生這種情況的常見情況是,如果我們對每個人都有一個廉價的結果度量,而對一個子集有一個昂貴的度量。

在許多數據集中,缺失數據也出現在自變量中。在這些情況下,我們需要插補結果變量,因為需要插補版本來插補自變量。

引用自:https://stats.stackexchange.com/questions/46226

comments powered by Disqus