對於什麼（對稱）分佈，樣本均值比樣本中位數更有效？

February 7, 2015

我一直相信樣本中位數比樣本均值更能衡量集中趨勢，因為它忽略了異常值。因此，我驚訝地得知（在另一個問題的答案中）對於從正態分佈中抽取的樣本，樣本均值的方差小於樣本中位數的方差（至少對於大）。

我從數學上理解為什麼這是真的。是否有一種“哲學”的方式來看待這個問題，這有助於直覺何時使用中值而不是其他分佈的平均值？

是否有數學工具可以幫助快速回答特定分佈的問題？

假設我們將考慮限制在均值和方差有限的對稱分佈（例如，柯西不考慮在內）。

此外，我最初將把自己限制在連續的單峰情況下，實際上主要是在“不錯”的情況下（儘管我可能稍後會回來討論其他一些情況）。

相對方差取決於樣本量。通常討論 ( $ n $ 倍）漸近方差，但我們應該記住，在較小的樣本量下情況會有所不同。（中位數有時比其漸近行為所暗示的要好或差。例如，在正常情況下 $ n=3 $ 它的效率約為 74% 而不是 63%。不過，在相當適中的樣本量下，漸近行為通常是一個很好的指導。）

漸近線很容易處理：

意思是： $ n\times $ 方差 = $ \sigma^2 $ .

中位數： $ n\times $ 方差 = $ \frac{1}{[4f(m)^2]} $ 在哪裡 $ f(m) $ 是中位數處的密度高度。

因此，如果 $ f(m)>\frac{1}{2\sigma} $ ，中位數將漸近更有效。

[在正常情況下， $ f(m)= \frac{1}{\sqrt{2\pi}\sigma} $ ，所以 $ \frac{1}{[4f(m)^2]}=\frac{\pi\sigma^2}{2} $ , 其中漸近相對效率 $ 2/\pi $ )]

我們可以看到，中位數的方差將取決於非常接近中心的密度的行為，而均值的方差取決於原始分佈的方差（在某種意義上，它受到各處密度的影響，並且在特別是，它的行為方式離中心更遠）

也就是說，雖然中位數受異常值的影響比均值小，而且我們經常看到當分佈是重尾分佈時它的方差低於均值（這確實會產生更多的異常值），但真正推動了中位數是內點。經常發生的情況是（對於一個固定的方差），兩者往往會同時出現。

也就是說，從廣義上講，隨著尾巴變重，有一個趨勢（在固定值 $ \sigma^2 $ ）分佈同時獲得“峰值”（更多峰度，在皮爾遜的原始，如果鬆散的意義上）。然而，這並不是一定的事情——在廣泛的普遍認為的密度範圍內往往都是這種情況，但並不總是如此。當它確實成立時，中位數的方差將減少（因為分佈在中位數的緊鄰區域有更多概率），而均值的方差保持不變（因為我們固定 $ \sigma^2 $ ）。

因此，在各種常見情況下，當尾巴很重時，中位數通常會比平均值“更好”（但我們必須記住，構建反例相對容易）。所以我們可以考慮幾個案例，它們可以向我們展示我們經常看到的東西，但我們不應該過多地閱讀它們，因為較重的尾巴並不普遍與較高的峰值。

我們知道中位數的效率約為 63.7%（對於 $ n $ 大）作為正常的平均值。

怎麼樣，比如說一個邏輯分佈，它像正態分佈一樣是關於中心的近似拋物線，但有更重的尾巴（如 $ x $ 變大，它們變成指數）。

如果我們將尺度參數設為 1，則邏輯有方差 $ \pi^2/3 $ 和高度在 1/4 的中位數，所以 $ \frac{1}{4f(m)^2}=4 $ . 那麼方差比為 $ \pi^2/12\approx 0.82 $ 所以在大樣本中，中位數的效率大約是平均值的 82%。

讓我們考慮另外兩個具有類似指數尾巴但峰度不同的密度。

首先，雙曲割線 ( $ \text{sech} $ ) 分佈，其標準形式的方差為 1，高度在 $ \frac{1}{2} $ ，所以漸近方差的比率為 1（兩者在大樣本中同樣有效）。然而，在小樣本中，均值更有效（其方差約為中位數的 95%，當 $ n=5 $ ，例如）。

在這裡，我們可以看到，隨著我們通過這三個密度（保持方差不變），中位數的高度是如何增加的：

我們可以讓它走得更高嗎？我們確實可以。例如，考慮雙指數。標準形式的方差為 2，中位數的高度為 $ \frac{1}{2} $ （因此，如果我們如圖所示縮放到單位方差，則峰值位於 $ \frac{1}{\sqrt{2}} $ ，略高於 0.7）。中位數的漸近方差是均值的一半。

如果我們使給定方差的分佈更加峰值（也許通過使尾部比指數重），中位數仍然可以更有效（相對而言）。這個峰值可以達到多高真的沒有限制。

如果我們改為使用 t 分佈中的示例，則會看到大致相似的效果，但進展會有所不同；交叉點略低於 $ \nu=5 $ df（實際上約為 4.68）——對於較小的 df，中位數更有效（漸近），對於較大的 df，平均值是。

…

在有限的樣本量下，有時可以顯式計算中位數分佈的方差。如果這不可行 - 甚至只是不方便 - 我們可以使用模擬來計算從分佈中抽取的隨機樣本的中位數的方差（或方差的比率*）（這是我為得到上面的小樣本數字所做的））。

儘管我們通常實際上並不需要均值的方差，因為如果我們知道分佈的方差我們可以計算它，這樣做可能在計算上更有效，因為它就像一個控制變量（均值和中位數通常非常相關）。

引用自：https://stats.stackexchange.com/questions/136671

comments powered by Disqus

對於什麼（對稱）分佈，樣本均值比樣本中位數更有效？

相關問答

對於所有類型的分佈，均值的 CDF 是否始終為 0.5？

74% 概率高於平均值的示例分佈

一個擁有非正態分佈數據的統計學家怎麼能比一個只有平均值的統計學家猜得好呢？

為什麼當平均值看起來真的不同時，t.test() 的 p 值在統計上不顯著

為什麼這個估計器不是無偏的？

為什麼不以以下方式進行引導？