Mathematical-Statistics

如果 mean 如此敏感,為什麼要首先使用它?

  • August 13, 2011

眾所周知,中位數對異常值具有抵抗力。如果是這樣,我們何時以及為什麼首先使用平均值?

我能想到的一件事也許是了解異常值的存在,即如果中位數遠離均值,那麼分佈是偏斜的,也許需要檢查數據以決定如何處理異常值。還有其他用途嗎?

從某種意義上說,使用均值是因為它對數據很敏感。如果分佈恰好是對稱的並且尾部與正態分佈差不多,則均值是集中趨勢的非常有效的總結。中位數雖然對於任何連續分佈都是穩健且定義明確的,但僅如果數據恰好來自正態分佈,則與平均值一樣有效。正是這種中位數的相對低效率使我們無法比我們更多地使用它。隨著樣本量變大,相對低效率轉化為較小的絕對低效率,因此對於大我們可以對使用中位數更加無罪。

有趣的是,對於變異的度量(散佈、分散),有一個非常穩健的估計量,它的效率是標準差的 0.98,即基尼均值差。這是任何兩個觀測值之間的平均絕對差。[您必須將樣本標準差乘以一個常數來估計由基尼平均差估計的相同數量。] 集中趨勢的有效度量是霍奇斯-萊曼估計量,即所有成對均值的中位數。如果它的解釋更簡單,我們會更多地使用它。

引用自:https://stats.stackexchange.com/questions/14210

comments powered by Disqus