鍊式方程多重插補 (MICE) 解釋
我已經看到鍊式方程 (MICE) 的多重插補被用作缺失數據處理方法。有誰能簡單解釋一下 MICE 的工作原理嗎?
MICE 是一種多重插補方法,用於在數據缺失機制的某些假設下替換數據集中的缺失數據值(例如,數據隨機缺失,數據完全隨機缺失)。
如果您從一個包含一個或多個變量中缺失值的數據集開始,您可以創建該數據集的多個副本- 例如,您可以創建原始數據集的 5 個副本 - 並替換缺失的數據值在每個副本中使用 MICE 程序。然後您可以:
- 使用您預期的統計分析分析 5 個完整的數據集副本;
- 合併(或匯集)這些完整數據分析的結果;
- 報告綜合結果。
合併(或合併)結果的規則特定於合併的結果,最初由 Rubin 開發。
Jesper N. Wulff 和 Linda Ejlskov的文章Multiple Imputation by Chained Equations in Praxis:指南和評論中的圖 1直觀地總結了上述過程:http ://www.ejbrm.com/issue/download.html?idArticle= 450 .
MICE 如何替換原始數據集的每個副本中的缺失數據值?
鍊式**方程的多重插補:它是什麼以及它是如何工作的?**由 Azur 等人撰寫。用一個很好的例子解釋了 MICE 引擎蓋下發生的事情:https ://www.ncbi.nlm.nih.gov/pmc/articles/PMC3074241/
在示例中,作者的文章從一個簡單的數據集開始,該數據集僅包含 3 個變量:年齡、收入和性別。所有 3 個都至少有一些缺失值。
要應用 MICE,請創建此簡單數據集的 5 個副本(例如),並為每個副本循環多次執行以下步驟:
**第 1 步:**將每個變量中的缺失值替換(或估算)為臨時“佔位符”值,該值僅源自該變量可用的非缺失值。例如,用數據中觀察到的平均年齡值替換缺失的年齡值,用數據中觀察到的平均收入值替換缺失的收入值等。
步驟 2 重新設置為僅忽略年齡變量的“佔位符”插補。這樣,當前數據副本包含年齡的缺失值,但不包含收入和性別的缺失值。
**第 3 步:**通過線性回歸模型對收入和性別的年齡進行回歸(儘管也可以僅根據其中一個變量對年齡進行回歸);為了能夠將模型擬合到當前數據副本,請在模型擬合過程中刪除所有缺少年齡的記錄。在這個模型中,年齡是因變量,收入和性別是自變量。
步驟 4使用上一步中的擬合回歸模型來預測缺失的年齡值。(當隨後在其他變量的回歸模型中將年齡用作自變量時,將使用年齡的觀察值和這些預測值。)該文章沒有明確說明應將隨機分量添加到這些預測。
**第 5 步:**對每個缺少數據的變量(即收入和性別)分別重複第 2-4 步。
對每個變量年齡、收入和性別循環通過步驟 1-5 一次構成一個循環。在這個週期結束時,年齡、收入和性別中的所有缺失值都將被回歸模型的預測所取代,這些預測反映了在數據中觀察到的這些變量之間的關係。
如前所述,MICE 要求我們在步驟 1-5 中循環多個週期,並在隨後的每個週期中更新年齡、收入和性別的缺失值的插補。
我們可以預先指定要執行的循環數(例如,10 個循環)——一旦我們到達最後一個循環,我們保留與該最後一個循環對應的估算值,獲得一個估算數據集(即,一個數據集,其中所有年齡、性別和收入中的缺失值被替換為通過迭代程序獲得的估算數據值)。
總而言之,MICE 通過使用分而治之的方法來估算數據集變量中的缺失值——換句話說,一次只關註一個變量。一旦將焦點放在一個變量上,MICE 就會使用數據集中的所有其他變量(或這些變量的明智選擇子集)來預測該變量中的缺失。預測基於回歸模型,模型的形式取決於焦點變量的性質(例如,年齡和收入需要線性回歸模型來預測其缺失值,但性別需要邏輯回歸模型) .