Mathematical-Statistics

Westfall 說,“峰度的比例由中央決定μ±σμ±σmupmsigma範圍通常很小”但反過來是真的嗎?

  • August 23, 2021

Peter Westfall 在他的文章中揭穿了峰度作為測量分佈峰度的概念,他寫道:“[T] 峰度的比例由中央決定 $ \mu\pm\sigma $ 範圍通常很小。”

我讀到這意味著我們通過知道有多少密度在平均值的標準偏差內,我們對峰度了解甚少。

反過來是真的嗎?知道了峰度,我們能說什麼(除了切比雪夫不等式)關於在均值的一個標準差內包含多少密度嗎?

(我認為我很樂意使用經驗分佈,以避免出現未定義的均值和無限方差的問題。)

參考

Westfall, Peter H. “Kurtosis as peakedness, 1905–2014. RIP。” 美國統計學家 68.3(2014):191-195。

答案於 2021 年 9 月 15 日編輯:

在他對 OP 的回答中,@whuber 聲稱如下:

對於具有峰度的分佈 $ \kappa $ , 平均值的一個 SD 內的總密度介於 $ 1−1/\kappa $ 和 $ 1 $ , 在哪裡 $ \kappa $ 是分佈的(非超額)峰度。

這個說法是錯誤的。

下面的例子清楚地表明@whuber 的結果是假的。

從這裡考慮我的“反例#1”:https ://math.stackexchange.com/a/2523606/472987 ,與 $ \theta = .001 $ . 在那個反例中,峰度是 $ 25.5 $ , 範圍 $ 1-1/\kappa $ 到 $ 1.0 $ 來自 $ 0.96 $ 到 $ 1.0 $ ,但均值標準差內的概率為 $ 0.5 $ . 這些語句由 R 代碼驗證:

th = .001
Z = c(-sqrt(.155/th +1.44), -1.2, -.5, +.5, +1.2, +sqrt(.155/th +1.44))
p = c(th/2, (.5-th)/2, .25, .25, (.5-th)/2, th/2)

sum(p)       # The probabilities sum to one so it is a valid pmf
sum(Z*p)     # The mean is zero
sum(Z^2*p)   # The variance is one

plot(Z, p, type="h", lwd = 4, cex.lab=1.5, cex.axis=1.5,ylab="Probability")
abline(v=c(-1,1), lty=2, lwd=2)  # Shows values within +- 1 sd

k = sum(Z^4*p)
k       # Kurtosis is 25.5

range = c(1 - 1/k,1)
range     # (.96, 1.0) is the range suggested by @whuber's false theorem 
         # about probability within a sd of mu

sum(p[abs(Z)<1])  # 0.5 is the actual probability within +- 1sd

這是反例分佈圖。垂直虛線標記 $ \mu \pm \sigma $ 限制,在這個範圍內可以清楚地看到只有 $ 0.50 $ 可能性。

在此處輸入圖像描述

您還可以使用可重現的數據集和匯總統計數據來說明反例。以下 R 代碼生成 $ 1000000 $ 來自反例分佈的樣本,樣本量足夠大,以至於“偏差校正”可以忽略不計。估計的峰度為 $ 26.02 $ , 範圍 $ (1 - 1/26.02, 1) $ ,中心概率應該位於其中,是 $ (.96,1) $ ,但估計的中心概率是 $ 0.4999 $ .

set.seed(12345)
N = 1000000
Data = sample(Z, N, p, replace = T)
xbar = mean(Data)
s = sd(Data)

library(moments)
ku = kurtosis(Data)
ku
c(1-1/ku, 1)  # @whuber's false claim of central probability range

sum( Data >= xbar -s & Data <= xbar +s )/N  # Actual central probability

看到@whuber 的結果確實失敗了,這很有趣。在我的反例 #1 分佈族中,峰度可能趨於無窮大,這意味著根據@whuber 的“結果”,中心概率接近 $ 1.0 $ . 但相反,中心概率保持不變 $ 0.5 $ !

人們不需要構建花哨的反例來說明@whuber 的主張的如此驚人的失敗。考慮常見的 $ T_\nu $ 分佈,具有自由度參數的學生 T 分佈 $ \nu $ . 為了 $ \nu > 4 $ ,其均值為零,其方差為 $ \sigma^2 = \nu/(\nu -2) $ ,其(非超額)峰度為 $ \kappa = 6/(\nu-4) +3 $ . 範圍中 $ 4 < \nu \le 5 $ ,峰度範圍為 $ 9 $ 到 $ \infty $ ,而內的概率 $ \pm \sigma $ 可以用 R 表示法進行數值計算,如

pt(sigma, nu) - pt(-sigma,nu)

下面的 R 代碼和結果圖顯示了@whuber 聲稱的範圍(黑色虛線),以及實際的中心概率(紅色實線)。

nu = seq(4.0001, 4.9999, .0001)
sigma = sqrt(nu/(nu-2))
kurt = 6/(nu-4) + 3
Cent.Prob = pt(sigma, nu) - pt(-sigma, nu)

Upper.Bound = rep(1, length(nu))
Lower.Bound = 1 - 1/kurt
plot(nu, Cent.Prob, ylim = c(.6,1), type="l", col="red", 
  ylab="Central Probability", xlab = "degrees of freedom")
points(nu, Upper.Bound, type="l", lty=2)
points(nu, Lower.Bound, type="l", lty=2)

在此處輸入圖像描述

再次,@whuber 的主張有一個驚人的失敗,因為該主張暗示中心概率必須本質上是 $ 1.0 $ (為了 $ \nu \approx 4 $ ),而實際上它要少得多(大約 $ 0.77 $ ).

因此,@whuber 的說法是錯誤的:中心概率不必位於@whuber 規定的範圍內。事實上,正如我的反例 #1 所示,中心概率根本不需要隨著峰度的增大而增加。

這裡有兩個結果進一步闡明了峰度與中心的關係。

定理 1. 考慮一個隨機變量 $ X $ (包括通過經驗分佈的數據)具有 wlog、均值 = 0、方差 = 1 和有限四階矩。現在,創建一個新的隨機變量 $ X' $ 通過替換質量/密度 $ p_X $ 在裡面 $ 0 \pm 1 $ 任意,但保持 $ E(X')=0 $ 和 $ Var(X')=1 $ . 那麼所有此類替換的最大和最小峰度統計量之間的差異小於 0.25。

定理 2. 考慮一個隨機變量 $ X $ 如定理 1。現在,創建一個新的隨機變量 $ X' $ 通過替換質量/密度 $ p_X $ 之外_ $ 0 \pm 1 $ 任意,但保持 $ E(X')=0 $ 和 $ Var(X')=1 $ 在這樣的替換中。那麼所有此類替換的最大和最小峰度統計量之間的差異是無限的(即無限的)。

因此,在中心附近移動質量的影響對峰度的影響最多非常小,而在尾部移動質量的影響具有無限大的影響。

當人們試圖證明一個定理以某種方式證明中心與峰度有關時,提前知道這樣一個定理可能存在哪些反例是非常有幫助的。

這裡給出了很好的反例(https://math.stackexchange.com/a/2523606/472987)。

“反例 #1”顯示了一系列分佈,其中峰度增加到無窮大,而內部的質量 $ \mu \pm \sigma $ 保持恆定 0.5。

“反例#2”顯示了一個分佈族,其中質量在 $ \mu \pm \sigma $ 增加到 1.0,但峰度降低到最小值。

因此,峰度衡量“質量集中在中心”的經常斷言顯然是錯誤的。

許多人認為較高的峰度意味著“尾部概率更高”。這也不正確:反例 #1 表明,當尾部延伸時,您可以具有更高的峰度和更少的尾部概率。

相反,峰度精確測量尾部槓桿。看

https://stats.stackexchange.com/a/532055/102879

https://stats.stackexchange.com/a/481022/102879 .

引用自:https://stats.stackexchange.com/questions/541151

comments powered by Disqus