Missing-Data
一種確定數據是否隨機缺失的統計方法
我有一大組特徵向量,我將用它們來解決二進制分類問題(在 Python 中使用 scikit learn)。在我開始考慮插補之前,我有興趣嘗試從數據的其餘部分確定缺失的數據是“隨機缺失”還是非隨機缺失。
解決這個問題的明智方法是什麼?
事實證明,一個更好的問題是詢問數據是否“完全隨機丟失”。這樣做的明智方法是什麼?
我在評論中找到了我正在談論的信息。
從範布倫斯的書,第 31 頁,他寫道
“已經提出了幾個測試來測試 MCAR 與 MAR。這些測試沒有被廣泛使用,並且它們的實用價值尚不清楚。參見Enders (2010, pp. 17-21) 對兩個程序的評估。無法測試MAR 與 MNAR 因為缺少此類測試所需的信息。”