在回歸中處理 NA ??數據標誌?
我現在正在處理一個包含大約 30 個不同變量的大數據集。幾乎我的所有行在至少其中一行中都有缺失值。我想對幾個變量進行回歸。根據我對 R(或任何其他統計程序)的理解,它將丟棄任何變量中至少有一個 NA 的觀察結果。有沒有辦法阻止 R 這樣做?我的意思是可以讓 R 忽略缺失的值,但仍然對剩餘的值進行回歸嗎?
我的一位教授曾經告訴我,可以使用“數據標誌”來創建當值為 NA 時等於 1 否則為零的虛擬變量。我會為每個帶有 NA 的變量創建這些標誌。然後我將 NA 設置為零,之後我可以在回歸中包含標誌。如果我沒記錯的話,就是這麼告訴我的。我現在想用谷歌搜索這個過程,但我找不到任何東西。我這是一種合法的方法嗎?是否有任何風險或其他問題?
如果是這樣,還有其他解決方案嗎?我知道插補和插值,我可以將其用於我的一些變量,但不是全部。
為了清楚起見,我的因變量中沒有任何 NA。
“標記方法”——通常稱為“虛擬變量方法”或“指標變量方法”——主要用於編碼具有不適用值的預測變量。它可用於對具有缺失值的預測變量進行編碼;當您有興趣對新數據集進行預測而不是對參數進行推斷時,並且當您要進行預測的樣本中假定缺失機制相同時。
問題是您正在擬合一個不同的模型,其中非缺失斜率不等於模型中所有預測變量都不缺失的“真實”斜率。†參見 Jones (1996), “Indicator and Stratification Methods for Missing Explanatory Variables in Multiple Linear Regression”, JASA , 91 , 433。(一個例外是在預測變量設計為正交的實驗研究中。)
請注意,對於最大似然過程,您可以將缺失值設置為任意數字,而不僅僅是零。
† 假設感興趣的模型是
在哪裡是線性預測器。現在你介紹作為缺失的指標:模型變為
什麼時候不缺你設置到:
什麼時候想念你設置到&為任意常數:
清楚的時候缺失,斜率不再以; 全面的是條件斜率和邊際斜率的平均值。一般來說.