Outliers

峰度的穩健估計?

  • June 19, 2014

我正在使用通常的峰度估計器,

,但我注意到,即使是我的經驗分佈中的小“異常值”,即遠離中心的小峰,也會對其產生巨大影響。是否有更穩健的峰度估計量?

有幾種。您將在 此鏈接中找到與該論文的非封閉版本的詳盡比較(此答案底部的正確參考)。

由於問題的限制,這些算法中最穩健的算法(L/RMC)的故障率最多為 12.5%。L/RMC 的一個優點是它基於分位數並且即使在基礎分佈沒有矩時仍然可以解釋。另一個優點是它不假設數據中未污染部分的分佈對稱來測量尾重:實際上,該算法返回兩個數字:右尾重的 RMC 和左尾重的 LMC。

估計器的穩健性可以通過其崩潰點來衡量。然而,在這種情況下,擊穿點的概念是一個複雜的概念。直觀地說,這意味著對手需要控制至少 12.5% 的樣本才能使該估計器取任意值(即理解為估計器可以返回的值範圍內的任意值,因為測量尾重總是在通過構造:例如,任何污染都不會導致算法返回-1!)。在實踐中,人們發現可以用甚至非常病態的異常值替換大約 5% 的樣本,而不會導致受影響最大的估計值(總是有兩個)與未污染樣本的值偏離太多。

L/RMC 也被廣泛實施。例如,您可以 在此處找到 R 實現。如上面鏈接的文章中所述,要計算 L/RMC,您需要分別在數據的左半邊和右半邊計算 MC(鏈接中實現的估計器)。在這裡,(左)右半部分是由大於原始樣本中位數的觀察(更小)形成的子樣本。

  • 布賴斯、休伯特、斯特魯伊夫。(2006 年)。尾重的可靠測量。

引用自:https://stats.stackexchange.com/questions/104027

comments powered by Disqus