Median

是否有不止一個“中位數”公式?

  • September 18, 2018

在我的工作中,當個人提到數據集的“平均值”時,他們通常指的是算術平均值(即“平均值”或“預期值”)。如果我提供了幾何平均值,人們可能會認為我在開玩笑或沒有幫助,因為“平均值”的定義是事先知道的。

我正在嘗試確定數據集的“中位數”是否有多個定義。例如,一位同事提供的用於查找具有偶數個元素的數據集的中位數的定義之一是:

算法’A'

  • 將元素數除以二,向下取整。
  • 該值是中位數的索引。
  • 即對於以下集合,中位數將是5
  • [4, 5, 6, 7]

這似乎是有道理的,儘管四捨五入方面似乎有點武斷。

算法“B”

無論如何,另一位同事提出了一個單獨的算法,在他的一本統計教科書中(需要得到姓名和作者):

  • 將元素的數量除以 2,並保留上舍入和下舍入整數的副本。命名它們n_lon_hi.
  • n_lo取和處元素的算術平均值n_hi
  • 即對於以下集合,中位數將是(5+6)/2 = 5.5
  • [4, 5, 6, 7]

但這似乎是錯誤的,因為在這種情況下,中值5.5實際上不在原始數據集中。當我們在某些​​測試代碼中將算法“A”替換為“B”時,它嚴重崩潰(正如我們所料)。

問題

這兩種計算數據集中位數的方法是否有正式的“名稱”?即“較小的兩個中位數”與“平均中間元素和製作新數據中位數”?

TL; DR - 我不知道樣本中位數的不同估計器被賦予了具體名稱。從某些數據中估計樣本統計數據的方法相當繁瑣,並且不同的資源給出了不同的定義。

在 Hogg、McKean 和 Craig 的數理統計導論中,作者提供了隨機樣本中位數的定義,但僅限於樣本數為奇數的情況!作者寫道

訂單統計的某些功能本身就是重要的統計…如果 $ n $ 很奇怪, $ Y_{(n+1)/2} $ … 稱為隨機樣本的中位數

如果您有偶數個樣本,作者沒有提供關於如何做的指導。(注意 $ Y_i $ 是個 $ i $ 最小的基準。)

但這似乎是不必要的限制。我希望能夠為偶數或奇數定義隨機樣本的中位數 $ n $ . 此外,我希望中位數是唯一的。鑑於這兩個要求,我必須就如何最好地找到唯一樣本中位數做出一些決定。算法 A 和算法 B 都滿足這些要求。施加額外的要求可能會排除其中一個或兩個。

算法 B 具有一半數據低於該值,一半數據低於該值的特性。根據隨機變量中位數的定義,這看起來不錯。


特定估算器是否破壞單元測試是單元測試的一個屬性——當您替換另一個估算器時,針對特定估算器編寫的單元測試不一定成立。在理想情況下,選擇單元測試是因為它們反映了您組織的關鍵需求,而不是因為對定義的教條爭論。

引用自:https://stats.stackexchange.com/questions/367467

comments powered by Disqus