基於“2.5 倍 RMSE”刪除異常值
在卡尼曼和迪頓 (2010) $ ^\dagger $ ,作者寫道:
該回歸解釋了 37% 的方差,均方根誤差 (RMSE) 為 0.67852。為了消除異常值和不可信的收入報告,我們刪除了對數收入與其預測之間的差值的絕對值超過 RMSE 的 2.5 倍的觀測值。
這是常見的做法嗎?這樣做背後的直覺是什麼?基於一個最初可能沒有明確指定的模型來定義異常值似乎有些奇怪。異常值的確定不應該基於構成合理值的一些理論依據,而不是您的模型預測真實值的程度嗎?
$ \dagger $ : Daniel Kahneman, Angus Deaton (2010):高收入提高了對生活的評價,但不能提高情緒健康。美國國家科學院院刊 2010 年 9 月,107 (38) 16489-16493;DOI: 10.1073/pnas.1011492107
刪除這些數據的原因就在引文中說明:即“消除異常值和不可信的收入報告”。他們同時提到這兩個東西的事實意味著他們承認至少他們的一些異常值不是不可信的值,並且無論如何,他們沒有就為什麼具有高殘差的值應該被認為是“不可信的”給出任何論據“收入價值。通過這樣做,他們有效地刪除了數據點,因為殘差高於他們回歸模型中的預期值。正如我在這裡的另一個答案中所說,這無異於要求現實符合您的模型假設,並忽略不符合這些假設的現實部分。
無論這是否是一種常見做法,這都是一種可怕的做法. 之所以會出現這種情況,是因為離群數據點很難處理,而且分析師不願意對其進行正確建模(例如,通過使用允許誤差項具有較高峰度的模型),因此他們只是刪除了現實中不存在的部分符合他們進行統計建模的能力。這種做法在統計上是不可取的,它會導致系統性地低估誤差項中的方差和峰度的推論。本文的作者報告說,由於移除了這些異常值,他們丟棄了 3.22% 的數據 (p. 16490)。由於這些數據點中的大多數都是非常高的收入,這對他們就高收入的影響做出可靠結論的能力產生了很大的懷疑(這是他們論文的目標)。