鍊式方程多重插補 (MICE) 解釋

August 10, 2019

我已經看到鍊式方程 (MICE) 的多重插補被用作缺失數據處理方法。有誰能簡單解釋一下 MICE 的工作原理嗎？

MICE 是一種多重插補方法，用於在數據缺失機制的某些假設下替換數據集中的缺失數據值（例如，數據隨機缺失，數據完全隨機缺失）。

如果您從一個包含一個或多個變量中缺失值的數據集開始，您可以創建該數據集的多個副本- 例如，您可以創建原始數據集的 5 個副本 - 並替換缺失的數據值在每個副本中使用 MICE 程序。然後您可以：

使用您預期的統計分析分析 5 個完整的數據集副本；

合併（或匯集）這些完整數據分析的結果；

報告綜合結果。

合併（或合併）結果的規則特定於合併的結果，最初由 Rubin 開發。

Jesper N. Wulff 和 Linda Ejlskov的文章Multiple Imputation by Chained Equations in Praxis：指南和評論中的圖 1直觀地總結了上述過程：http ://www.ejbrm.com/issue/download.html?idArticle= 450 .

MICE 如何替換原始數據集的每個副本中的缺失數據值？

鍊式**方程的多重插補：它是什麼以及它是如何工作的？**由 Azur 等人撰寫。用一個很好的例子解釋了 MICE 引擎蓋下發生的事情：https ://www.ncbi.nlm.nih.gov/pmc/articles/PMC3074241/

在示例中，作者的文章從一個簡單的數據集開始，該數據集僅包含 3 個變量：年齡、收入和性別。所有 3 個都至少有一些缺失值。

要應用 MICE，請創建此簡單數據集的 5 個副本（例如），並為每個副本循環多次執行以下步驟：

**第 1 步：**將每個變量中的缺失值替換（或估算）為臨時“佔位符”值，該值僅源自該變量可用的非缺失值。例如，用數據中觀察到的平均年齡值替換缺失的年齡值，用數據中觀察到的平均收入值替換缺失的收入值等。

步驟 2 重新設置為僅忽略年齡變量的“佔位符”插補。這樣，當前數據副本包含年齡的缺失值，但不包含收入和性別的缺失值。

**第 3 步：**通過線性回歸模型對收入和性別的年齡進行回歸（儘管也可以僅根據其中一個變量對年齡進行回歸）；為了能夠將模型擬合到當前數據副本，請在模型擬合過程中刪除所有缺少年齡的記錄。在這個模型中，年齡是因變量，收入和性別是自變量。

步驟 4使用上一步中的擬合回歸模型來預測缺失的年齡值。（當隨後在其他變量的回歸模型中將年齡用作自變量時，將使用年齡的觀察值和這些預測值。）該文章沒有明確說明應將隨機分量添加到這些預測。

**第 5 步：**對每個缺少數據的變量（即收入和性別）分別重複第 2-4 步。

對每個變量年齡、收入和性別循環通過步驟 1-5 一次構成一個循環。在這個週期結束時，年齡、收入和性別中的所有缺失值都將被回歸模型的預測所取代，這些預測反映了在數據中觀察到的這些變量之間的關係。

如前所述，MICE 要求我們在步驟 1-5 中循環多個週期，並在隨後的每個週期中更新年齡、收入和性別的缺失值的插補。

我們可以預先指定要執行的循環數（例如，10 個循環）——一旦我們到達最後一個循環，我們保留與該最後一個循環對應的估算值，獲得一個估算數據集（即，一個數據集，其中所有年齡、性別和收入中的缺失值被替換為通過迭代程序獲得的估算數據值）。

總而言之，MICE 通過使用分而治之的方法來估算數據集變量中的缺失值——換句話說，一次只關註一個變量。一旦將焦點放在一個變量上，MICE 就會使用數據集中的所有其他變量（或這些變量的明智選擇子集）來預測該變量中的缺失。預測基於回歸模型，模型的形式取決於焦點變量的性質（例如，年齡和收入需要線性回歸模型來預測其缺失值，但性別需要邏輯回歸模型） .

引用自：https://stats.stackexchange.com/questions/421545

鍊式方程多重插補 (MICE) 解釋

相關問答

一個神經網絡可以只用111隱藏層解決了什麼問題？

如果幾乎總是減少解釋的變化，為什麼要使用降維？

深度學習的模擬退火：為什麼無梯度統計學習不是主流？

哪個是第一位的 - 領域專業知識或實驗方法？

我們真的在線性回歸的第一步中取隨機線嗎？

用最大似然法尋找類別