Normal-Distribution

估計正態分佈的參數:中位數而不是平均值?

  • January 30, 2013

估計正態分佈參數的常用方法是使用均值和样本標準差/方差。

但是,如果有一些異常值,中位數和中位數與中位數的偏差應該更加穩健,對吧?

在我嘗試的一些數據集上,正態分佈估計為似乎比經典更合身使用平均值和 RMS 偏差。

如果您假設數據集中存在一些異常值,是否有任何理由*不使用中位數?*你知道這種方法的一些參考嗎?在 Google 上快速搜索並沒有找到有用的結果來討論使用中位數的好處(但顯然,“正態分佈參數估計中位數”不是一組非常具體的搜索詞)。

中位數偏差,是否有偏差?我應該把它乘以減少偏見?

您是否知道其他分佈的類似穩健參數估計方法,例如 Gamma 分佈或指數修正的高斯分佈(在參數估計中需要 Skewness,而異常值真的會弄亂這個值)?

觀察到,在涉及從受污染的高斯分佈中提取的數據的示例中,您可以通過使用代替在哪裡是:

  • 在哪裡,是一個一致性因子,旨在確保

什麼時候未受污染——最初由 Gauss 製造(Walker, H. (1931))。 我想不出任何理由不使用在這種情況下,而不是樣本均值。較低的效率(在高斯!)可能是不使用的理由在你的例子中。但是,存在同樣強大和高效的替代方案. 其中之一是. 除了這個估計器還有許多其他優點。它對異常值也非常不敏感(實際上幾乎和瘋子一樣不敏感)。與瘋子相反,它不是圍繞位置估計建立的,也沒有假設數據中未污染部分的分佈是對稱的。像瘋子一樣,它基於訂單統計數據,因此即使您的樣本的基本分佈沒有矩,它也總是得到很好的定義。像瘋子一樣,它有一個簡單的顯式形式。甚至比瘋子還多,我認為沒有理由使用樣本標準差而不是在您描述的示例中(請參閱 Rousseeuw 和 Croux 1993 了解有關).

至於你的最後一個問題,關於具體情況, 然後

(在這兩種情況下,當) 以便

完整的推導參見 Chen 和 Rubin (1986)。

  • J. Chen 和 H. Rubin,1986 年。Gamma 和 Poisson 分佈的中位數和平均值之間的差異界限,統計學家。概率。快報,4,281-283。
  • PJ Rousseeuw 和 C. Croux,1993 年。美國統計協會中值絕對偏差期刊的替代方案,卷。88,第 424 號,第 1273-1283 頁
  • 沃克,H. (1931)。統計方法史研究。馬里蘭州巴爾的摩:Williams & Wilkins Co.,第 24-25 頁。

引用自:https://stats.stackexchange.com/questions/48864

comments powered by Disqus