Multivariate-Analysis

您將如何處理調查數據中的“不知道”和“缺失數據”？

September 20, 2010

作為標題，我正在考慮將兩者合併為“缺失數據”，即在 R 中將其命名為 NA。因為我認為這沒有多大意義（甚至沒有任何意義），所以將“不要知道”行出來並將信息與其他行進行比較。

我可以這樣做嗎？

好吧，您還應該考慮到“不知道”至少是某種答案，而不回答是純粹的缺失值。現在，我們經常在調查中允許“不知道”的回答，以避免強迫人們無論如何都提供回答（這可能會使結果產生偏差）。例如，在全國健康和營養檢查調查中，它們的編碼不同，但隨後從分析中被丟棄。

您可以嘗試兩種方式分析數據：（1）將“不知道響應”視為特定響應類別，並使用某種多元數據分析處理所有響應集（例如，多重對應分析或混合數據的多因素分析，請參閱FactoMineR包），以及（2）如果它沒有對項目分佈帶來任何扭曲的證據，只需將其與缺失值合併即可。

對於（2），我還建議您檢查“不知道”和 MV 是否至少隨機缺失（MAR），或者它們不是特定於一個受訪者群體（例如男性/女性、年齡階層、 SES 等）。

引用自：https://stats.stackexchange.com/questions/2886

comments powered by Disqus

相關問答

Maximum-Likelihood

用最大似然法尋找類別

December 6, 2021

鍊式方程多重插補 (MICE) 解釋

August 10, 2019

facebook 先知如何處理丟失的數據？

February 20, 2019

在回歸中處理 NA ??數據標誌？

July 22, 2018

Machine-Learning

解決機器學習中數據缺失問題的方法

September 18, 2017

當我們只有關於當前素食者的調查數據時，如何計算平均堅持素食主義的時間？

August 19, 2017