Outliers
使用標準差檢測異常值
在我的問題之後,我想知道是否有強烈的觀點支持或反對使用標準偏差來檢測異常值(例如,任何超過 2 個標準偏差的數據點都是異常值)。
我知道這取決於研究的背景,例如,48 公斤的數據點在嬰兒體重研究中肯定是異常值,但在成人體重研究中則不會。
異常值是多種因素的結果,例如數據輸入錯誤。就我而言,這些過程是穩健的。
我想我要問的問題是:使用標準差是檢測異常值的合理方法嗎?
有些異常值顯然是不可能的。你提到嬰兒體重48公斤。這顯然是一個錯誤。這不是統計問題,而是實質性問題。沒有 48 公斤重的人類嬰兒。任何統計方法都會識別出這樣一個點。
就個人而言,我不會依賴任何測試(甚至是@Michael推薦的適當測試),而是將數據繪製成圖表。表明某個數據值(或多個值)在某些假設分佈下不太可能並不意味著該值是錯誤的,因此不應僅僅因為它們是極端值而自動刪除它們。
此外,您提出的規則(平均值為 2 SD)是在計算機使事情變得容易之前使用的舊規則。如果 N 為 100,000,那麼即使存在完美的正態分佈,您也肯定會期望有不少值超過均值 2 SD。
但是如果分佈錯誤怎麼辦?假設,在總體中,所討論的變量不是正態分佈的,而是有比這更重的尾巴?