在回歸中處理 NA ??數據標誌？

July 22, 2018

我現在正在處理一個包含大約 30 個不同變量的大數據集。幾乎我的所有行在至少其中一行中都有缺失值。我想對幾個變量進行回歸。根據我對 R（或任何其他統計程序）的理解，它將丟棄任何變量中至少有一個 NA 的觀察結果。有沒有辦法阻止 R 這樣做？我的意思是可以讓 R 忽略缺失的值，但仍然對剩餘的值進行回歸嗎？

我的一位教授曾經告訴我，可以使用“數據標誌”來創建當值為 NA 時等於 1 否則為零的虛擬變量。我會為每個帶有 NA 的變量創建這些標誌。然後我將 NA 設置為零，之後我可以在回歸中包含標誌。如果我沒記錯的話，就是這麼告訴我的。我現在想用谷歌搜索這個過程，但我找不到任何東西。我這是一種合法的方法嗎？是否有任何風險或其他問題？

如果是這樣，還有其他解決方案嗎？我知道插補和插值，我可以將其用於我的一些變量，但不是全部。

為了清楚起見，我的因變量中沒有任何 NA。

“標記方法”——通常稱為“虛擬變量方法”或“指標變量方法”——主要用於編碼具有不適用值的預測變量。它可用於對具有缺失值的預測變量進行編碼；當您有興趣對新數據集進行預測而不是對參數進行推斷時，並且當您要進行預測的樣本中假定缺失機制相同時。

問題是您正在擬合一個不同的模型，其中非缺失斜率不等於模型中所有預測變量都不缺失的“真實”斜率。†參見 Jones (1996), “Indicator and Stratification Methods for Missing Explanatory Variables in Multiple Linear Regression”, JASA , 91 , 433。（一個例外是在預測變量設計為正交的實驗研究中。）

請注意，對於最大似然過程，您可以將缺失值設置為任意數字，而不僅僅是零。

† 假設感興趣的模型是

在哪裡是線性預測器。現在你介紹作為缺失的指標：模型變為

什麼時候不缺你設置到：

什麼時候想念你設置到&為任意常數：

清楚的時候缺失，斜率不再以; 全面的是條件斜率和邊際斜率的平均值。一般來說.

引用自：https://stats.stackexchange.com/questions/358443

comments powered by Disqus

在回歸中處理 NA ??數據標誌？

相關問答

用最大似然法尋找類別

鍊式方程多重插補 (MICE) 解釋

facebook 先知如何處理丟失的數據？

解決機器學習中數據缺失問題的方法

當我們只有關於當前素食者的調查數據時，如何計算平均堅持素食主義的時間？

如何確定兩個相關性是否顯著不同？