穩健均值估計速成課程
我有一堆(大約 1000 個)估計值,它們都應該是對長期彈性的估計值。其中超過一半是使用方法 A 估計的,其餘使用方法 B 估計。在某處我讀到類似“我認為方法 B 估計的東西與方法 A非常不同的東西,因為估計要高得多 (50-60%) ”。我對穩健統計的了解幾乎為零,所以我只計算了兩個樣本的樣本均值和中位數……我立即看到了差異。方法A非常集中,中位數和均值之間的差異很小,但方法B樣本變化很大。
我得出的結論是異常值和測量誤差歪曲了方法 B 樣本,因此我丟棄了大約 50 個與理論非常不一致的值(約 15%)……突然間,兩個樣本(包括它們的 CI)的均值非常相似. 密度圖也是如此。
(為了消除異常值,我查看了樣本 A 的範圍,並刪除了 B 中所有超出範圍的樣本點。)我希望您告訴我在哪裡可以找到一些穩健估計均值的基礎知識請允許我更嚴格地判斷這種情況。並有一些參考。我不需要對各種技術有非常深入的了解,而是通讀對穩健估計方法的全面調查。
在去除異常值後,我對平均差異的顯著性進行了 t 檢驗,p 值為 0.0559(t 約為 1.9),對於完整樣本,t stat 約為 4.5。但這並不是重點,手段可能會有所不同,但它們不應相差 50-60%,如上所述。我不認為他們這樣做。
您是在尋找理論還是實用的東西?
如果您正在尋找書籍,這裡有一些我覺得有幫助的:
- FR Hampel、EM Ronchetti、PJRousseeuw、WA Stahel,穩健統計:基於影響函數的方法,John Wiley & Sons,1986。
- PJ Huber,穩健統計,John Wiley & Sons,1981。
- PJ Rousseeuw,AM Leroy,穩健回歸和異常值檢測,John Wiley & Sons,1987。
- RG Staudte,SJ Sheather,穩健估計和測試,John Wiley & Sons,1990。
如果您正在尋找實用的方法,這裡有一些估計平均值的可靠方法(“位置估計器”我猜是更有原則的術語):
- 中位數很簡單,眾所周知,而且非常強大。它對異常值具有出色的魯棒性。穩健性的“代價”約為 25%。
- 5% 的修剪平均值是另一種可能的方法。在這裡,您丟棄 5% 的最高值和 5% 的最低值,然後取結果的平均值(平均值)。這對異常值不太穩健:只要不超過 5% 的數據點被損壞,這很好,但如果超過 5% 的數據點被損壞,它會突然變得很糟糕(它不會優雅地降級)。穩健性的“價格”低於中位數,儘管我不知道它到底是什麼。
- Hodges-Lehmann 估計器計算集合的中位數(一組包含值),其中是觀察。這具有非常好的魯棒性:它可以處理多達約 29% 的數據點的損壞而不會完全崩潰。而且穩健性的“代價”很低:大約 5%。這是中位數的合理替代方案。
- 四分位距平均值是另一種有時使用的估計量。它計算第一和第三四分位數的平均值,因此計算起來很簡單。它具有非常好的魯棒性:它可以容忍高達 25% 的數據點的損壞。然而,穩健性的“代價”並非微不足道:大約 25%。結果,這似乎不如中位數。
- 已經提出了許多其他措施,但上述措施似乎是合理的。
簡而言之,我建議使用中值或可能的 Hodges-Lehmann 估計量。
PS哦,我應該解釋一下我所說的穩健性的“價格”是什麼意思。即使您的某些數據點已損壞或異常值,穩健的估計器仍能正常工作。但是,如果您在沒有異常值且沒有損壞的數據集上使用穩健的估計器怎麼辦?理想情況下,我們希望穩健的估計器盡可能高效地利用數據。在這裡,我們可以通過標準誤差(直觀地說,估計器產生的估計中的典型誤差量)來衡量效率。眾所周知,如果您的觀察來自高斯分佈 (iid),並且如果您知道不需要穩健性,那麼均值是最優的:它具有最小的估計誤差。上述穩健性的“價格”,是如果我們將特定的穩健估計器應用於這種情況,標準誤差會增加多少。中位數為 25% 的穩健性價格意味著中位數的典型估計誤差的大小將比均值的典型估計誤差的大小大 25%。顯然,“價格”越低越好。