Mean

當數據有偏差時應該使用平均值嗎?

  • May 4, 2014

通常介紹性應用統計文本通過解釋平均值對樣本數據中的異常值和/或偏斜的人口分佈,這被用作斷言當數據不對稱時首選中位數的理由。

例如:

給定數據集的集中趨勢的最佳度量通常取決於值的分佈方式……當數據不對稱時,中位數通常是集中趨勢的最佳度量。因為平均值對極端觀察很敏感,所以它會被拉向邊緣數據值的方向,結果可能會過度膨脹或過度收縮。”

——Pagano 和 Gauvreau,(2000 年)《生物統計學原理》,第 2 版。 (寶潔就在手邊,順便說一句,並沒有把它們單獨挑出來*。*)

作者如此定義“集中趨勢”:“一組數據最常研究的特徵是它的中心,或者觀察傾向於聚集的點。”

這讓我覺得這是一種不太直截了當的說法,即僅使用中位數 period,因為僅在數據/分佈對稱時使用均值與僅在等於中位數時使用均值是一回事。編輯: whuber 正確地指出,我將集中趨勢的穩健度量與中位數混為一談。因此,重要的是要記住,我正在討論介紹性應用統計中算術平均值與中位數的具體框架(除了模式之外,其他集中趨勢的測量沒有動機)。

與其根據均值偏離中位數行為的程度來判斷均值的效用,我們不應該簡單地將它們理解為兩種不同的中心性度量嗎?換句話說,對偏度敏感是均值的一個特徵。人們可以同樣有效地爭論“中位數不好,因為它在很大程度上對偏度不敏感,所以只有在它等於平均值時才使用它。”

(該模式非常明智地不涉及這個問題。)

我不同意這個建議作為一個明確的規則。(並非所有書籍都通用。)

問題更加微妙。

如果您真的有興趣推斷總體均值,那麼樣本均值至少是它的無偏估計量,並且具有許多其他優勢。事實上,請參閱高斯-馬爾可夫定理- 它是最好的線性無偏。

如果您的變量嚴重偏斜,則問題與“線性”有關-在某些情況下,所有線性估計器都可能不好,因此其中最好的估計器可能仍然沒有吸引力,因此非線性均值的估計器可能會更好,但它需要了解一些(甚至很多)關於分佈的知識。我們並不總是那麼奢侈。

如果您不一定對與人口平均值相關的推斷感興趣(“什麼是典型年齡? ”,比如說,或者是否存在從一個人口到另一個人口的更一般的位置轉移,這可以用任何位置來表達,甚至一個變量隨機大於另一個變量的測試),然後根據總體均值進行轉換是不必要的或可能適得其反(在最後一種情況下)。

所以我認為它歸結為思考:

  • 你的實際問題是什麼?在這種情況下,人口是否意味著一件好事?
  • 鑑於這種情況(在這種情況下是偏度),回答問題的最佳方法是什麼?使用樣本是回答我們感興趣的問題的最佳方法嗎?

您可能對總體均值有疑問,但樣本均值是查看這些問題的好方法(估計您假設分佈為 ab 指數隨機變量的等待時間的總體中位數,例如更好地估計為樣本均值的特定部分)…反之亦然-問題可能與總體均值有關,但樣本均值可能不是回答該問題的最佳方法。

引用自:https://stats.stackexchange.com/questions/96371

comments powered by Disqus