Data-Visualization

如何解釋缺口箱線圖

  • May 9, 2015

在做一些 EDA 時,我決定使用箱線圖來說明一個因素的兩個水平之間的差異。

ggplot渲染箱線圖的方式令人滿意,但略顯簡單(下面的第一張圖)。在研究箱形圖的特徵時,我開始嘗試使用缺口。

我知道缺口顯示中位數周圍的 CI,如果兩個框的缺口不重疊,則有“強有力的證據”——在 95% 的置信水平上——中位數不同。

在我的情況下(第二個情節),缺口沒有有意義的重疊。但是為什麼右手邊的盒子底部會出現這種奇怪的形狀呢?

在小提琴圖中繪製相同的數據並沒有表明相應小提琴的概率密度有任何異常。

圖1箱線圖

圖 2 缺口箱線圖

在我的情況下(第二個情節),缺口沒有有意義的重疊。但是為什麼右手邊的盒子底部會出現這種奇怪的形狀呢?我該如何解釋?

它表示第 25 個百分位約為 21,第 75 個百分位約為 30.5。而缺口的下限和上限分別是18和27左右。

一個常見的原因是您的分佈有偏差或樣本量很小。缺口的邊界基於:

$ median \pm 1.57 \times \frac{IQR}{\sqrt{n}} $

如果中位數與第 25 個百分位數之間的距離以及中位數與第 75 個百分位數之間的距離相差很大(如右圖)和/或樣本量較小,則缺口會更寬。如果它足夠寬以至於缺口邊界比第 25 和第 75 個百分位數(又名方框)更極端,那麼缺口箱線圖將顯示這種“由內而外”的形狀。

引用自:https://stats.stackexchange.com/questions/151580

comments powered by Disqus