Outliers

盒須圖定義異常值的基礎是什麼?

  • February 2, 2017

盒須圖異常值的標准定義是超出範圍的點, 在哪裡和是第一個四分位數並且是數據的第三個四分位數。

這個定義的依據是什麼?對於大量點,即使是完全正態分佈也會返回異常值。

例如,假設您從以下序列開始:

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

此序列創建 4000 個數據點的百分位排名。

測試qnorm本系列的正態性導致:

shapiro.test(qnorm(xseq))

   Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

   Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

結果完全符合預期:正態分佈的正態性是正態的。創建 aqqnorm(qnorm(xseq))創建(如預期的那樣)一條直線數據:

qqnorm 數據圖

如果創建相同數據的箱線圖,則boxplot(qnorm(xseq))產生結果:

數據箱線圖

當樣本量足夠大時(如本例所示),箱線圖與shapiro.testad.test或 不同,將多個qqnorm點識別為異常值。

箱線圖

這是Hoaglin、Moseller 和 Tukey (2000) 的相關部分:了解穩健和探索性數據分析。威利。第 3 章,“箱線圖和批量比較”,由 John D. Emerson 和 Judith Strenio 撰寫(從第 62 頁開始):

[…] 我們將異常值定義為小於 $ F_{L}-\frac{3}{2}d_{F} $ 或大於 $ F_{U}+\frac{3}{2}d_{F} $ 有點武斷,但對許多數據集的經驗表明,該定義在識別可能需要特別注意的值方面非常有用。[…]

$ F_{L} $ 和 $ F_{U} $ 表示第一和第三四分位數,而 $ d_{F} $ 是四分位數範圍(即 $ F_{U}-F_{L} $ )。

他們繼續向高斯群體展示應用程序(第 63 頁):

考慮標準高斯分佈,均值 $ 0 $ 和方差 $ 1 $ . 我們尋找類似於箱線圖中使用的樣本值的該分佈的總體值。對於對稱分佈,中位數等於均值,因此標準高斯分佈的總體中位數為 $ 0 $ . 人口四分之二是 $ -0.6745 $ 和 $ 0.6745 $ ,所以人口四次傳播是 $ 1.349 $ ,或大約 $ \frac{4}{3} $ . 因此 $ \frac{3}{2} $ 第四次點差的倍數是 $ 2.0235 $ (關於 $ 2 $ )。人口異常值截止值為 $ \pm 2.698 $ (關於 $ 2\frac{2}{3} $ ),它們包含 $ 99.3% $ 的分佈。[…]

所以

[他們]表明,如果將截止值應用於高斯分佈,那麼 $ 0.7% $ 的人口在異常值截止值之外;該圖提供了一個比較標準,用於判斷異常值截止點的位置[…]。

此外,他們寫

[…] 因此,我們可以通過有多少點超出異常值截止點來判斷我們的數據是否看起來比高斯重尾。[…]

他們提供了一個表格,其中包含超出異常值截止值的預期值比例(標記為“Total % Out”):

表 3-2

因此,這些截止值從未打算成為關於哪些數據點是異常值或不是異常值的嚴格規則。正如您所指出的,即使是完美的正態分佈也有望在箱線圖中顯示“異常值”。


異常值

據我所知,離群值沒有普遍接受的定義。我喜歡霍金斯(1980)的定義:

異常值是一種與其他觀察結果有很大差異的觀察結果,以致引起人們懷疑它是由不同的機制產生的。

理想情況下,只有在了解為什麼它們不屬於其餘數據時,您才應該將數據點視為異常值。一個簡單的規則是不夠的。Aggarwal (2013) 對異常值進行了很好的處理。

參考

Aggarwal CC (2013):異常值分析。施普林格。

Hawkins D (1980):異常值的識別。查普曼和霍爾。

Hoaglin、Moseller 和 Tukey (2000):了解穩健和探索性數據分析。威利。

引用自:https://stats.stackexchange.com/questions/259654

comments powered by Disqus