Outliers

使用標準差檢測異常值

  • September 26, 2012

在我的問題之後,我想知道是否有強烈的觀點支持或反對使用標準偏差來檢測異常值(例如,任何超過 2 個標準偏差的數據點都是異常值)。

我知道這取決於研究的背景,例如,48 公斤的數據點在嬰兒體重研究中肯定是異常值,但在成人體重研究中則不會。

異常值是多種因素的結果,例如數據輸入錯誤。就我而言,這些過程是穩健的。

我想我要問的問題是:使用標準差是檢測異常值的合理方法嗎?

有些異常值顯然是不可能的。你提到嬰兒體重48公斤。這顯然是一個錯誤。這不是統計問題,而是實質性問題。沒有 48 公斤重的人類嬰兒。任何統計方法都會識別出這樣一個點。

就個人而言,我不會依賴任何測試(甚至是@Michael推薦的適當測試),而是將數據繪製成圖表。表明某個數據值(或多個值)在某些假設分佈下不太可能並不意味著該值是錯誤的,因此不應僅僅因為它們是極端值而自動刪除它們。

此外,您提出的規則(平均值為 2 SD)是在計算機使事情變得容易之前使用的舊規則。如果 N 為 100,000,那麼即使存在完美的正態分佈,您也肯定會期望有不少值超過均值 2 SD。

但是如果分佈錯誤怎麼辦?假設,在總體中,所討論的變量不是正態分佈的,而是有比這更重的尾巴?

引用自:https://stats.stackexchange.com/questions/38001

comments powered by Disqus

相關問答