Outliers

如何評估箱線圖的偏度?

  • May 6, 2014

如何通過查看根據這些數據構建的箱線圖來確定偏度:

340、300、520、340、320、290、260、330

一本書說,“如果下四分位數比上四分位數離中位數更遠,那麼分佈是負偏態的。” 其他幾位消息人士或多或少地表示相同。

我使用 R 構建了一個箱線圖。如下所示:

箱形圖

我認為它是負偏態的,因為下四分位數比上四分位數離中位數更遠。但問題是當我使用另一種方​​法來確定偏度時:

平均值 (337.5) > 中位數 (325)

這表明數據正偏斜。我錯過了什麼?

一種偏度度量是基於均值-中值-皮爾遜第二偏度係數

偏度的另一種測量方法是基於相對四分位數差異 (Q3-Q2) 與 (Q2-Q1) 的比率,表示為比率

當 (Q3-Q2) 與 (Q2-Q1) 表示為差異(或等效地中間鉸鏈中位數)時,必須對其進行縮放以使其無量綱(通常需要偏度測量),例如 IQR,如這裡(通過把)。

最常見的度量當然是第三矩偏度

沒有理由認為這三項措施必然是一致的。其中任何一個都可能與其他兩個不同。

我們認為的“偏度”是一個有點模糊和定義不明確的概念。有關更多討論,請參見此處

如果我們用普通的 qqplot 看你的數據:

在此處輸入圖像描述

[那裡標記的線僅基於前 6 個點,因為我想討論後兩個與那裡的模式的偏差。]

我們看到最小的 6 個點幾乎完全在線上。

然後第 7 個點位於該線下方(比左端相應的第二個點更靠近中間),而第 8 個點位於該線上方。

第 7 點表明輕微的左偏,最後一個,更強烈的右偏。如果忽略任何一點,偏斜的印象完全由另一點決定。

如果我不得不說是其中一個,我會稱之為“右偏”,但我還要指出,這種印象完全是由於那個非常大的一點的影響。沒有它,真的沒有什麼可以說它是正確的偏斜。(另一方面,如果沒有第 7 點,它顯然不是左偏。)

當我們的印象完全由單點決定時,我們必須非常小心,並且可以通過刪除一個點來翻轉。這不是繼續下去的依據!


我首先假設使異常值“異常”的是模型(在一個模型上的異常值在另一種模型下可能非常典型)。

我認為在正態分佈(高於平均值 3.72 sds)的 0.01 上百分位(1/10000)處的觀察對於正態模型同樣是異常值,因為在指數分佈的 0.01 上百分位處的觀察對於指數模型來說同樣是異常值。(如果我們通過它自己的概率積分變換來變換一個分佈,每個分佈都會去相同的統一)

要查看將箱線圖規則應用於適度右偏分佈的問題,請模擬指數分佈的大樣本。

例如,如果我們從法線模擬大小為 100 的樣本,我們平均每個樣本的異常值少於 1 個。如果我們用指數來做,我們平均在 5 左右。但是沒有真正的基礎可以說更高比例的指數值是“異常的”,除非我們通過與(比如說)正常模型進行比較來做到這一點。在特定情況下,我們可能有特定的理由來製定某種特定形式的異常值規則,但是沒有一般規則,這讓我們有了像我在本小節中開始的一般原則 - 以自己的方式處理每個模型/分佈(如果一個值對於模型來說並不異常,為什麼在這種情況下稱它為異常值?)


轉到標題中的問題

雖然它是一種非常粗糙的工具(這就是我查看 QQ 圖的原因),但箱線圖中有幾個偏斜跡象 - 如果至少有一個點被標記為異常值,則可能(至少)三個:

在此處輸入圖像描述

在這個樣本(n=100)中,外部點(綠色)標記了極值,中值表示左偏。然後柵欄(藍色)表明(與中值結合時)表明右偏度。然後鉸鏈(四分位數,棕色)與中位數結合表明左偏度。

正如我們所看到的,它們不必是一致的。您將關注的重點取決於您所處的情況(可能還有您的偏好)。

然而,關於箱線圖有多粗糙的警告。此處最後的示例(包括對如何生成數據的描述)給出了具有相同箱線圖的四種完全不同的分佈:

在此處輸入圖像描述

正如您所看到的,存在一個相當偏斜的分佈,所有上述偏斜指標都顯示出完美的對稱性。

讓我們從“鑑於這是一個箱線圖,將一個點標記為異常值,您的老師期望得到什麼答案?”的角度來看這個。

我們首先要回答“他們是否希望您評估不包括該點的偏度,或者將其包含在樣本中?”。有些人會排除它,並評估剩餘部分的偏度,就像 jsk 在另一個答案中所做的那樣。雖然我對這種方法的某些方面存在爭議,但我不能說它是錯誤的——這取決於具體情況。有些人會包括它(尤其是因為從正態性派生的規則排除了 12.5% 的樣本似乎是一大步*)。

*想像一個人口分佈是對稱的,除了最右邊的尾巴(我在回答這個問題時構造了一個這樣的分佈——正常,但最右邊的尾巴是帕累托——但沒有在我的回答中出現)。如果我抽取大小為 8 的樣本,通常有 7 個觀察值來自看起來正常的部分,一個來自上尾。如果我們在這種情況下排除標記為箱線圖異常值的點,我們就排除了告訴我們它實際上是傾斜的點!當我們這樣做時,保留在那種情況下的截斷分佈是左偏的,我們的結論將與正確的相反。

引用自:https://stats.stackexchange.com/questions/96553

comments powered by Disqus