Distributions

多峰分佈的箱須圖

  • February 16, 2015

我是否可以將盒須圖也用於多峰分佈或僅用於單峰分佈?

問題是通常的箱線圖* 通常無法指示模式的數量。儘管在某些(通常很少見)情況下,可以清楚地表明最小模式數超過 1,但更常見的是,給定的箱線圖與一個或任何更大數量的模式一致。

  • 建議對常用箱線圖進行一些修改,這些修改更多地表明密度的變化,並且可以用於識別多種模式,但我認為這些不是這個問題的目的。

例如,雖然該圖確實表明存在至少兩種模式(生成的數據恰好有兩種)-

$ \qquad\qquad $ 在此處輸入圖像描述

相反,這個分佈有兩種非常清晰的模式,但你根本無法從箱線圖中看出這一點:

在此處輸入圖像描述

箱線圖不一定傳達有關分佈的大量信息。在鬍鬚之外沒有任何標記點的情況下,它們僅包含五個值,並且五個數字摘要並不能確定分佈。但是,上面的第一個圖顯示了 cdf 被充分“固定”以基本上排除單峰分佈的情況(至少在樣本大小為 $ n= $ 100) – 在這種情況下,沒有單峰 cdf 與 cdf 的約束一致,這需要在第一季度相對急劇上升,在中半部分趨於平緩(平均)小幅增長,然後變化上季度再次大幅上漲。

實際上,這裡的圖 1 (我相信這是後來發表在 [1] 中的工作論文)顯示了具有相同箱線圖的四個不同數據集。

我手頭沒有這些數據,但是製作一個類似的數據集是一件小事——如上面與五數摘要相關的鏈接所示,我們只需將分佈限制在矩形框內五個數字摘要限制了我們。

這是 R 代碼,它將生成與論文中的數據相似的數據:

x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1)  # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])

這是與論文中類似的顯示,上面的數據(除了我在這裡顯示所有四個箱線圖):

四個不同的直方圖 - (a) 大致正常,(b) 雙峰,(c) 平尾峰值,(d) 傾斜 - 但有四個相同的箱線圖

在 Matejka & Fitzmaurice (2017)[2] 中有一組類似的展示,儘管他們似乎沒有像 x4 那樣非常偏斜的示例(他們確實有一些稍微偏斜的示例)——而且他們確實有一些三峰示例不是在[1]中;示例的基本點是相同的。

但是要當心——直方圖也可能有問題;事實上,我們在這裡看到了它的一個問題,因為第三個“峰值”直方圖中的分佈實際上是明顯的雙峰分佈;直方圖 bin 寬度太寬而無法顯示。此外,正如尼克考克斯在評論中指出的那樣,核密度估計也可能會影響模式數量的印象(有時會抹掉模式……或者有時會暗示原始分佈中不存在的小模式)。必須注意對許多常見顯示的解釋。

箱線圖的修改可以更好地指示多模態(花瓶圖、小提琴圖和豆子圖等)。在某些情況下,它們可能很有用,但如果我對尋找模式感興趣,我通常會查看不同類型的顯示。

當興趣集中在位置和分佈的比較上時(通常可能是偏度),箱線圖會更好 $ ^\dagger $ ) 而不是分佈形狀的細節。如果顯示多模態很重要,我建議查看更擅長顯示的顯示 - 顯示的精確選擇取決於您最希望它顯示的內容。

$ \dagger $ x4但並非總是如此 -上面示例數據中的第四個數據集 (

[1]:Choonpradub, C. 和 McNeil, D. (2005),

“箱線圖可以改進嗎?”

Songklanakarin J. Sci。技術。, 27 :3,第 649-657 頁。

http://www.jourlib.org/paper/2081800

pdf

[2]:Justin Matejka 和 George Fitzmaurice,(2017),

“相同的統計數據,不同的圖表:通過模擬退火生成具有不同外觀和相同統計數據的數據集”。

2017 年 CHI 計算系統中的人為因素會議論文集中( CHI ‘17 )。計算機協會,紐約,紐約,美國,1290–1294。DOI:https ://doi.org/10.1145/3025453.3025912

(請參閱此處的 pdf文件)

引用自:https://stats.stackexchange.com/questions/137965

comments powered by Disqus