對於什麼(對稱)分佈,樣本均值比樣本中位數更有效?
我一直相信樣本中位數比樣本均值更能衡量集中趨勢,因為它忽略了異常值。因此,我驚訝地得知(在另一個問題的答案中)對於從正態分佈中抽取的樣本,樣本均值的方差小於樣本中位數的方差(至少對於大)。
我從數學上理解為什麼這是真的。是否有一種“哲學”的方式來看待這個問題,這有助於直覺何時使用中值而不是其他分佈的平均值?
是否有數學工具可以幫助快速回答特定分佈的問題?
假設我們將考慮限制在均值和方差有限的對稱分佈(例如,柯西不考慮在內)。
此外,我最初將把自己限制在連續的單峰情況下,實際上主要是在“不錯”的情況下(儘管我可能稍後會回來討論其他一些情況)。
相對方差取決於樣本量。通常討論 ( $ n $ 倍)漸近方差,但我們應該記住,在較小的樣本量下情況會有所不同。(中位數有時比其漸近行為所暗示的要好或差。例如,在正常情況下 $ n=3 $ 它的效率約為 74% 而不是 63%。不過,在相當適中的樣本量下,漸近行為通常是一個很好的指導。)
漸近線很容易處理:
意思是: $ n\times $ 方差 = $ \sigma^2 $ .
中位數: $ n\times $ 方差 = $ \frac{1}{[4f(m)^2]} $ 在哪裡 $ f(m) $ 是中位數處的密度高度。
因此,如果 $ f(m)>\frac{1}{2\sigma} $ ,中位數將漸近更有效。
[在正常情況下, $ f(m)= \frac{1}{\sqrt{2\pi}\sigma} $ , 所以 $ \frac{1}{[4f(m)^2]}=\frac{\pi\sigma^2}{2} $ , 其中漸近相對效率 $ 2/\pi $ )]
我們可以看到,中位數的方差將取決於非常接近中心的密度的行為,而均值的方差取決於原始分佈的方差(在某種意義上,它受到各處密度的影響,並且在特別是,它的行為方式離中心更遠)
也就是說,雖然中位數受異常值的影響比均值小,而且我們經常看到當分佈是重尾分佈時它的方差低於均值(這確實會產生更多的異常值),但真正推動了中位數是內點。經常發生的情況是(對於一個固定的方差),兩者往往會同時出現。
也就是說,從廣義上講,隨著尾巴變重,有一個趨勢(在固定值 $ \sigma^2 $ )分佈同時獲得“峰值”(更多峰度,在皮爾遜的原始,如果鬆散的意義上)。然而,這並不是一定的事情——在廣泛的普遍認為的密度範圍內往往都是這種情況,但並不總是如此。當它確實成立時,中位數的方差將減少(因為分佈在中位數的緊鄰區域有更多概率),而均值的方差保持不變(因為我們固定 $ \sigma^2 $ )。
因此,在各種常見情況下,當尾巴很重時,中位數通常會比平均值“更好”(但我們必須記住,構建反例相對容易)。所以我們可以考慮幾個案例,它們可以向我們展示我們經常看到的東西,但我們不應該過多地閱讀它們,因為較重的尾巴並不普遍與較高的峰值。
我們知道中位數的效率約為 63.7%(對於 $ n $ 大)作為正常的平均值。
怎麼樣,比如說一個邏輯分佈,它像正態分佈一樣是關於中心的近似拋物線,但有更重的尾巴(如 $ x $ 變大,它們變成指數)。
如果我們將尺度參數設為 1,則邏輯有方差 $ \pi^2/3 $ 和高度在 1/4 的中位數,所以 $ \frac{1}{4f(m)^2}=4 $ . 那麼方差比為 $ \pi^2/12\approx 0.82 $ 所以在大樣本中,中位數的效率大約是平均值的 82%。
讓我們考慮另外兩個具有類似指數尾巴但峰度不同的密度。
首先,雙曲割線 ( $ \text{sech} $ ) 分佈,其標準形式的方差為 1,高度在 $ \frac{1}{2} $ ,所以漸近方差的比率為 1(兩者在大樣本中同樣有效)。然而,在小樣本中,均值更有效(其方差約為中位數的 95%,當 $ n=5 $ , 例如)。
在這裡,我們可以看到,隨著我們通過這三個密度(保持方差不變),中位數的高度是如何增加的:
我們可以讓它走得更高嗎?我們確實可以。例如,考慮雙指數。標準形式的方差為 2,中位數的高度為 $ \frac{1}{2} $ (因此,如果我們如圖所示縮放到單位方差,則峰值位於 $ \frac{1}{\sqrt{2}} $ ,略高於 0.7)。中位數的漸近方差是均值的一半。
如果我們使給定方差的分佈更加峰值(也許通過使尾部比指數重),中位數仍然可以更有效(相對而言)。這個峰值可以達到多高真的沒有限制。
如果我們改為使用 t 分佈中的示例,則會看到大致相似的效果,但進展會有所不同;交叉點略低於 $ \nu=5 $ df(實際上約為 4.68)——對於較小的 df,中位數更有效(漸近),對於較大的 df,平均值是。
…
在有限的樣本量下,有時可以顯式計算中位數分佈的方差。如果這不可行 - 甚至只是不方便 - 我們可以使用模擬來計算從分佈中抽取的隨機樣本的中位數的方差(或方差的比率*)(這是我為得到上面的小樣本數字所做的) )。
- 儘管我們通常實際上並不需要均值的方差,因為如果我們知道分佈的方差我們可以計算它,這樣做可能在計算上更有效,因為它就像一個控制變量(均值和中位數通常非常相關)。