Mathematical-Statistics

Westfall 說,“峰度的比例由中央決定μ±σμ±σmupmsigma範圍通常很小”但反過來是真的嗎?

  • August 23, 2021

Peter Westfall 在他的文章中揭穿了峰度作為測量分佈峰度的概念,他寫道:“[T] 峰度的比例由中央決定 μ±σ 範圍通常很小。”

我讀到這意味著我們通過知道有多少密度在平均值的標準偏差內,我們對峰度了解甚少。

反過來是真的嗎?知道了峰度,我們能說什麼(除了切比雪夫不等式)關於在均值的一個標準差內包含多少密度嗎?

(我認為我很樂意使用經驗分佈,以避免出現未定義的均值和無限方差的問題。)

參考

Westfall, Peter H. “Kurtosis as peakedness, 1905–2014. RIP。” 美國統計學家 68.3(2014):191-195。

答案於 2021 年 9 月 15 日編輯:

在他對 OP 的回答中,@whuber 聲稱如下:

對於具有峰度的分佈 κ , 平均值的一個 SD 內的總密度介於 11/κ1 , 在哪裡 κ 是分佈的(非超額)峰度。

這個說法是錯誤的。

下面的例子清楚地表明@whuber 的結果是假的。

從這裡考慮我的“反例#1”:https ://math.stackexchange.com/a/2523606/472987 ,與 θ=.001 . 在那個反例中,峰度是 25.5 , 範圍 11/κ1.0 來自 0.961.0 ,但均值標準差內的概率為 0.5 . 這些語句由 R 代碼驗證:

th = .001
Z = c(-sqrt(.155/th +1.44), -1.2, -.5, +.5, +1.2, +sqrt(.155/th +1.44))
p = c(th/2, (.5-th)/2, .25, .25, (.5-th)/2, th/2)

sum(p)       # The probabilities sum to one so it is a valid pmf
sum(Z*p)     # The mean is zero
sum(Z^2*p)   # The variance is one

plot(Z, p, type="h", lwd = 4, cex.lab=1.5, cex.axis=1.5,ylab="Probability")
abline(v=c(-1,1), lty=2, lwd=2)  # Shows values within +- 1 sd

k = sum(Z^4*p)
k       # Kurtosis is 25.5

range = c(1 - 1/k,1)
range     # (.96, 1.0) is the range suggested by @whuber's false theorem 
         # about probability within a sd of mu

sum(p[abs(Z)<1])  # 0.5 is the actual probability within +- 1sd

這是反例分佈圖。垂直虛線標記 μ±σ 限制,在這個範圍內可以清楚地看到只有 0.50 可能性。

在此處輸入圖像描述

您還可以使用可重現的數據集和匯總統計數據來說明反例。以下 R 代碼生成 1000000 來自反例分佈的樣本,樣本量足夠大,以至於“偏差校正”可以忽略不計。估計的峰度為 26.02 , 範圍 (11/26.02,1) ,中心概率應該位於其中,是 (.96,1) ,但估計的中心概率是 0.4999 .

set.seed(12345)
N = 1000000
Data = sample(Z, N, p, replace = T)
xbar = mean(Data)
s = sd(Data)

library(moments)
ku = kurtosis(Data)
ku
c(1-1/ku, 1)  # @whuber's false claim of central probability range

sum( Data >= xbar -s & Data <= xbar +s )/N  # Actual central probability

看到@whuber 的結果確實失敗了,這很有趣。在我的反例 #1 分佈族中,峰度可能趨於無窮大,這意味著根據@whuber 的“結果”,中心概率接近 1.0 . 但相反,中心概率保持不變 0.5 !

人們不需要構建花哨的反例來說明@whuber 的主張的如此驚人的失敗。考慮常見的 Tν 分佈,具有自由度參數的學生 T 分佈 ν . 為了 ν>4 ,其均值為零,其方差為 σ2=ν/(ν2) ,其(非超額)峰度為 κ=6/(ν4)+3 . 範圍中 4<ν5 ,峰度範圍為 9 ,而內的概率 ±σ 可以用 R 表示法進行數值計算,如

pt(sigma, nu) - pt(-sigma,nu)

下面的 R 代碼和結果圖顯示了@whuber 聲稱的範圍(黑色虛線),以及實際的中心概率(紅色實線)。

nu = seq(4.0001, 4.9999, .0001)
sigma = sqrt(nu/(nu-2))
kurt = 6/(nu-4) + 3
Cent.Prob = pt(sigma, nu) - pt(-sigma, nu)

Upper.Bound = rep(1, length(nu))
Lower.Bound = 1 - 1/kurt
plot(nu, Cent.Prob, ylim = c(.6,1), type="l", col="red", 
  ylab="Central Probability", xlab = "degrees of freedom")
points(nu, Upper.Bound, type="l", lty=2)
points(nu, Lower.Bound, type="l", lty=2)

在此處輸入圖像描述

再次,@whuber 的主張有一個驚人的失敗,因為該主張暗示中心概率必須本質上是 1.0 (為了 ν4 ),而實際上它要少得多(大約 0.77 ).

因此,@whuber 的說法是錯誤的:中心概率不必位於@whuber 規定的範圍內。事實上,正如我的反例 #1 所示,中心概率根本不需要隨著峰度的增大而增加。

這裡有兩個結果進一步闡明了峰度與中心的關係。

定理 1. 考慮一個隨機變量 X (包括通過經驗分佈的數據)具有 wlog、均值 = 0、方差 = 1 和有限四階矩。現在,創建一個新的隨機變量 X 通過替換質量/密度 pX 在裡面 0±1 任意,但保持 E(X)=0Var(X)=1 . 那麼所有此類替換的最大和最小峰度統計量之間的差異小於 0.25。

定理 2. 考慮一個隨機變量 X 如定理 1。現在,創建一個新的隨機變量 X 通過替換質量/密度 pX 之外_ 0±1 任意,但保持 E(X)=0Var(X)=1 在這樣的替換中。那麼所有此類替換的最大和最小峰度統計量之間的差異是無限的(即無限的)。

因此,在中心附近移動質量的影響對峰度的影響最多非常小,而在尾部移動質量的影響具有無限大的影響。

當人們試圖證明一個定理以某種方式證明中心與峰度有關時,提前知道這樣一個定理可能存在哪些反例是非常有幫助的。

這裡給出了很好的反例(https://math.stackexchange.com/a/2523606/472987)。

“反例 #1”顯示了一系列分佈,其中峰度增加到無窮大,而內部的質量 μ±σ 保持恆定 0.5。

“反例#2”顯示了一個分佈族,其中質量在 μ±σ 增加到 1.0,但峰度降低到最小值。

因此,峰度衡量“質量集中在中心”的經常斷言顯然是錯誤的。

許多人認為較高的峰度意味著“尾部概率更高”。這也不正確:反例 #1 表明,當尾部延伸時,您可以具有更高的峰度和更少的尾部概率。

相反,峰度精確測量尾部槓桿。看

https://stats.stackexchange.com/a/532055/102879

https://stats.stackexchange.com/a/481022/102879 .

引用自:https://stats.stackexchange.com/questions/541151