Multivariate-Analysis
您將如何處理調查數據中的“不知道”和“缺失數據”?
作為標題,我正在考慮將兩者合併為“缺失數據”,即在 R 中將其命名為 NA。因為我認為這沒有多大意義(甚至沒有任何意義),所以將“不要知道”行出來並將信息與其他行進行比較。
我可以這樣做嗎?
好吧,您還應該考慮到“不知道”至少是某種答案,而不回答是純粹的缺失值。現在,我們經常在調查中允許“不知道”的回答,以避免強迫人們無論如何都提供回答(這可能會使結果產生偏差)。例如,在全國健康和營養檢查調查中,它們的編碼不同,但隨後從分析中被丟棄。
您可以嘗試兩種方式分析數據:(1)將“不知道響應”視為特定響應類別,並使用某種多元數據分析處理所有響應集(例如,多重對應分析或混合數據的多因素分析,請參閱FactoMineR包),以及(2)如果它沒有對項目分佈帶來任何扭曲的證據,只需將其與缺失值合併即可。
對於(2),我還建議您檢查“不知道”和 MV 是否至少隨機缺失(MAR),或者它們不是特定於一個受訪者群體(例如男性/女性、年齡階層、 SES 等)。