Probability

為什麼非對稱分佈的均值和中位數不相等?

  • October 8, 2016

我的推理如下:pdf除以平均值(期望值)分為兩部分,pdf曲線下的面積相等,因此隨機變量取值小於或等於平均值的概率為0.5 ,這意味著該值也是中位數(根據中位數的定義)。

但是教科書說,只有當 pdf 是對稱的時,均值和中值才相等。我的錯誤在哪裡?

這裡有一個相關的問題:

均值 = 中位數是否意味著單峰分佈是對稱的?

你也應該閱讀,但是你的標題問題為什麼不對稱可以使均值和中位數不相等應該詳細解決(這就是為什麼我不認為這個問題與那個問題重複),我正在採取有機會對這裡提出的一些問題進行更直觀、基於圖片的討論。在處理了問題中的錯誤前提和您所參考的未命名教科書中的錯誤之後,最後討論了為什麼問題。


我將翻轉您的帖子並處理教科書首先說的內容:

但是教科書說,只有當 pdf 是對稱的時,均值和中值才相等。

有些教科書確實這樣說,但他們錯了。不對稱分佈的均值和中值可以相等。

從某種意義上說,反過來說幾乎是正確的——即“如果 pdf 是對稱的,則均值和中值相等”,但一般來說也不完全正確,因為對於某些對稱分佈,總體均值是不明確的。

實際上,有一種基於均值和中值之差的​​偏度度量(有時稱為第二 Pearson 偏度中值偏度),但是具有零秒 Pearson 偏度並不意味著對稱。

通常當分佈不對稱時,均值和中位數不相等,但我們可以找到盡可能多的例外。讓我們看一個。

在我對這個問題的回答中:mean=mode 是否意味著對稱分佈?

我展示了以下示例:

具有均值、中值和模式 0 和零矩偏度的不對稱密度

這是一個分佈明顯不對稱的示例(一方面,主峰的每一側都有不同數量的模式),但平均值和中位數卻完全相等。

構建離散示例非常容易,但我認為人們傾向於發現連續示例更有趣。

我的推理如下:pdf除以平均值(期望值)分為兩部分,pdf曲線下的面積相等,

不,中位數將 pdf 分成兩個相等的區域。手段一般不。

因此,隨機變量取小於或等於平均值的值的概率為 0.5,

讓我們看一個例子。考慮一個標準的指數分佈(適度向右傾斜)。它的中位數 - 將 pdf 下的區域分成兩個相等部分的值出現在 $ \ln 2\approx 0.69 $ 而平均值在 $ 1 $ , 並且只有 $ 1/e \approx 37% $ 其右側的區域。

指數密度顯示平均值 > 中位數,右側 od 平均值的 37% 面積

[您可能的意思是,對於對稱分佈(假設平均值是有限的),平均值將處於中位數。這是真的,但並不能證明均值=中值意味著對稱,而且正如我們所看到的,這個想法有反例。]


但是讓我回到你的標題問題……為什麼

為什麼非對稱分佈的均值和中位數不相等?

讓我們看一下樣本均值和中位數的比較[直接轉換為離散分佈上的總體均值和中位數的比較]。

sample:  1    2    3    4    6    9   16   95

median = 5 

mean = 17

proportion of observations > median = 1/2
proportion of observations > mean = 1/8

那麼,平均值是如何高於幾乎所有數據的呢?對於中位數,它只看有多少觀察值高於或低於,但平均值也看它們有多遠。數字越高或越低,它就越“拉”平均值。結果,一個非常偏斜的分佈,一個在一側有重尾但另一側沒有,將平均值從中值拉向長尾,在它們之間留下一個間隙。這就是為什麼上述指數分佈中的平均值相對較高,遠高於 50% 點的原因。

通過採用一系列較重的右尾,您實際上可以將有限均值移動到您喜歡的分佈的任何比例之上(只要它小於 100%)。

那為什麼不總是這樣呢?如果它是不對稱的,為什麼平均值不遠離中位數——為什麼有些不對稱會使平均值等於中位數?

想像一下,您在距離中位數一側一定距離的地方有一點概率。它“拉”有多難有兩個組成部分——一個是它有多遠,一個是它有多少(概率有多大)。兩倍遠的拉力是兩倍,但概率也是兩倍。因此,如果您在中位數的兩側放置概率凸起,您可以將這兩個組件一起使用以“平衡”(例如在一側中等距離使用較大的概率凸起和兩個較小的凸起,一個更近和一個另一邊更遠),因此將平均值保留在中位數,同時概率分佈不對稱。在我的示例的尖峰分佈的情況下,

引用自:https://stats.stackexchange.com/questions/239171

comments powered by Disqus