Distributions
具有相同 5 位數摘要的兩個分佈是否總是具有相同的形狀?
我知道如果我可以有兩個具有相同均值和方差的分佈是不同的形狀,因為我可以有一個 N(x,s) 和一個 U(x,s)
但是如果它們的最小值、Q1、中值、Q3 和最大值相同呢?
那麼分佈看起來會有所不同,還是需要它們具有相同的形狀?
我唯一的邏輯是,如果它們具有完全相同的 5 位數摘要,它們必須採用完全相同的分佈形狀。
僅僅因為五數匯總相同並不意味著分佈相同。這告訴您當我們在箱形圖中以圖形方式呈現數據時丟失了多少信息!
看問題的最簡單的方法可能是,五個數字的總結並沒有告訴你最小值和下四分位數之間的值分佈,或者下四分位數和中位數之間的分佈,等等。您知道最小和下四分位數之間的頻率必須與下四分位數和中位數之間的頻率匹配(有明顯的例外,例如,如果我們的數據位於一個四分位數上,或者更糟糕的是,如果兩個四分位數並列)但不知道這些頻率分配給變量的哪些值。我們可以有這樣的情況:
這兩個分佈具有相同的五數匯總,因此它們的箱線圖相同,但我選擇了在每個四分位數之間具有均勻分佈,而具有接近四分位數的低頻分佈和兩個四分位數中間的高頻分佈。有效分配已通過採取分佈形成並將大部分接近四分位數的數據移到離它更遠的地方;我的
R
代碼實際上是反向執行的,從不規則分佈開始並通過重新分配峰值中的數據以填充低谷來平衡頻率。編輯:正如@Glen_b 所說,當您查看累積分佈時,這變得更加明顯。我添加了網格線來顯示四分位數的位置,這對於兩個分佈是相同的,因此它們的經驗 CDF 相交。
R代碼
yfreq <- 2*rep(c(1:10, 10:1), times=4) xfreq <- rep(mean(yfreq), times=length(yfreq)) x <- rep(1:length(xfreq), times=xfreq) y <- rep(1:length(yfreq), times=yfreq) ecdfX <- ecdf(x) ecdfY <- ecdf(y) plot(ecdfX, verticals=TRUE, do.points=FALSE, col="blue", lwd=2, yaxt="n", main="Empirical CDFs", xlab="", ylab="Relative cumulative frequency") plot(ecdfY, verticals=TRUE, do.points=FALSE, add=TRUE, col="black", yaxt="n", lwd=2) axis(side=2, at=seq(0, 1, by=0.1), las=2) abline(h=c(0.25,0.5,0.75,1), col="lightgrey", lty="dashed") abline(v=summary(x), col="lightgrey", lty="dashed") legend("right", c("x", "y"), col = c("blue", "black"), lty = "solid", lwd=2, bty="n") par(mfrow=c(2,2)) hist(x, col="steelblue", breaks=((0:81)-0.5), ylim=c(0,25)) hist(y, col="grey", breaks=((0:81)-0.5), ylim=c(0,25)) boxplot(x, col="steelblue", main="Boxplot of x") boxplot(y, col="grey", main="Boxplot of y") summary(x) # Min. 1st Qu. Median Mean 3rd Qu. Max. # 1.00 20.75 40.50 40.50 60.25 80.00 summary(y) # Min. 1st Qu. Median Mean 3rd Qu. Max. # 1.00 20.75 40.50 40.50 60.25 80.00