Mean

中位數在 [Mode-Mean] 之外的反例

  • December 15, 2016

這篇文章在我的聯盟之上,但它談論了一個我感興趣的話題,即均值、眾數和中位數之間的關係。它說 :

人們普遍認為,單峰分佈的中位數“通常”介於平均值和眾數之間。然而,這並不總是正確的……

我的問題:有人可以提供中位數在 [mode, mean] 區間之外的連續單峰(理想情況下簡單)分佈的例子嗎?例如一個分佈,如mode < mean < median.

=== 編輯 =======

Glen_b 和 Francis 已經有了很好的答案,但我意識到我真正感興趣的是眾數 < 平均“在同一側”作為模式的平均值(即高於或低於模式))。我可以接受這裡的答案是打開一個新問題,或者有人可以直接在這裡提出解決方案?

當然,不難找到中位數不在平均值和眾數之間的例子——甚至是連續的單峰例子。

  1. 考慮來自形式的三角形分佈的 iid

現在讓是 60-40 的混合物和.

的密度看起來像這樣:

兩個三角形密度的混合,其中位數在眾數平均區間之外

平均值低於 0,眾數為 0,但中位數高於 0。對此稍作修改將產生一個示例,其中即使密度(而不僅僅是 cdf)也是連續的,但位置測量之間的關係是相同(編輯:見下文 3.)。 2. 概括,讓我們放一個比例(和) 的總概率成右側三角形和一個比例進入左側三角形(代替我們之前的 0.6 和 0.4)。此外,使左半邊的比例因子而不是(和):

兩個三角形密度混合的廣義版本的密度

現在假設,中位數將始終在直角三角形覆蓋的區間內,因此中位數將超過眾數(始終保持在)。特別是,當,中位數將在.

平均值將在.

如果那麼平均值將低於眾數,如果平均值將高於模式。

另一方面,我們想要保持平均值低於中位數。

考慮; 這將中位數置於眾數之上。

然後會滿足所以均值高於眾數。

中位數實際上是而平均值在. 因此對於和,我們有眾數<均值<中位數。

(注意為了與我的符號保持一致,兩個圖的 x 軸上的變量應該是而不是但我不會回去修復它。) 3. 這是密度本身是連續的示例。它基於上面 1. 和 2. 中的方法,但將“跳躍”替換為陡峭的斜坡(然後整個密度翻轉大約為 0,因為我想要一個看起來向右傾斜的示例)。

中位數<均值<眾數的連續分段線性密度

[使用“三角形密度混合”方法,它可以生成為第 1 節中描述的三角形的 3 個獨立縮放變量的混合。我們現在有 15%, 60%和 25%.]

正如我們在上圖中看到的,平均值在中間,正如要求的那樣。


  1. 請注意,m_t_ 在評論中提到了 Weibull(其中位數在小範圍形狀參數的區間)。這可能是令人滿意的,因為它是一個眾所周知的單峰連續(平滑)分佈,具有簡單的函數形式。

特別是 Weibull 形狀參數的值較小時,分佈是右偏的,我們通常會出現眾數和均值之間的中位數的情況,而 Weibull 形狀參數的值較大時,分佈是左偏的,我們又遇到了“中間中位數”的情況(但現在模式在右邊而不是平均值)。在這些情況之間是一個小區域,其中中位數在平均模式區間之外,並且在中間,平均值和模式交叉:

     k                 order
(0,3.2589)      mode < median < mean
 ≈ 3.2589       mode = median < mean
(3.2589,3.3125)  median < mode < mean    (1)
 ≈ 3.3215       median < mode = mean
(3.3215,3.4395)  median < mean < mode    (2)
 ≈ 3.4395       median = mean < mode
 3.4395+        mean < median < mode
 (≈3.60235      moment-skewness = 0)

在上面標記為 (1) 和 (2) 的區間中為形狀參數選擇方便的值——位置統計數據之間的差距大致相等的區間——我們得到:

中位數在眾數平均區間之外的 Weibull 密度

雖然這些滿足要求,但不幸的是,這三個位置參數非常接近,以至於我們無法在視覺上區分它們(它們都落在同一個像素中),這有點令人失望——我之前的例子中的情況要多得多分開。(儘管如此,它確實建議使用其他分佈進行檢查,其中一些可能會產生在視覺上更加明顯的結果。)

引用自:https://stats.stackexchange.com/questions/251701

comments powered by Disqus