估計正態分佈的參數：中位數而不是平均值？

January 30, 2013

估計正態分佈參數的常用方法是使用均值和样本標準差/方差。

但是，如果有一些異常值，中位數和中位數與中位數的偏差應該更加穩健，對吧？

在我嘗試的一些數據集上，正態分佈估計為似乎比經典更合身使用平均值和 RMS 偏差。

如果您假設數據集中存在一些異常值，是否有任何理由*不使用中位數？*你知道這種方法的一些參考嗎？在 Google 上快速搜索並沒有找到有用的結果來討論使用中位數的好處（但顯然，“正態分佈參數估計中位數”不是一組非常具體的搜索詞）。

中位數偏差，是否有偏差？我應該把它乘以減少偏見？

您是否知道其他分佈的類似穩健參數估計方法，例如 Gamma 分佈或指數修正的高斯分佈（在參數估計中需要 Skewness，而異常值真的會弄亂這個值）？

觀察到，在涉及從受污染的高斯分佈中提取的數據的示例中，您可以通過使用代替在哪裡是：

在哪裡，是一個一致性因子，旨在確保

什麼時候未受污染——最初由 Gauss 製造（Walker, H. (1931)）。我想不出任何理由不使用在這種情況下，而不是樣本均值。較低的效率（在高斯！）可能是不使用的理由在你的例子中。但是，存在同樣強大和高效的替代方案. 其中之一是. 除了這個估計器還有許多其他優點。它對異常值也非常不敏感（實際上幾乎和瘋子一樣不敏感）。與瘋子相反，它不是圍繞位置估計建立的，也沒有假設數據中未污染部分的分佈是對稱的。像瘋子一樣，它基於訂單統計數據，因此即使您的樣本的基本分佈沒有矩，它也總是得到很好的定義。像瘋子一樣，它有一個簡單的顯式形式。甚至比瘋子還多，我認為沒有理由使用樣本標準差而不是在您描述的示例中（請參閱 Rousseeuw 和 Croux 1993 了解有關).

至於你的最後一個問題，關於具體情況，然後

和

（在這兩種情況下，當）以便

和

完整的推導參見 Chen 和 Rubin (1986)。

J. Chen 和 H. Rubin，1986 年。Gamma 和 Poisson 分佈的中位數和平均值之間的差異界限，統計學家。概率。快報，4，281-283。

PJ Rousseeuw 和 C. Croux，1993 年。美國統計協會中值絕對偏差期刊的替代方案，卷。88，第 424 號，第 1273-1283 頁

沃克，H. (1931)。統計方法史研究。馬里蘭州巴爾的摩：Williams & Wilkins Co.，第 24-25 頁。

引用自：https://stats.stackexchange.com/questions/48864

comments powered by Disqus

估計正態分佈的參數：中位數而不是平均值？

相關問答

統計測試“穩健”意味著什麼？

為什麼最大似然估計量對異常值是可疑的？

有偏估計量的方差是否總是比無偏估計量小？

說黎曼和是積分的無偏估計是錯誤的嗎？

如何估計相關觀測值的方差？

當因變量不是正態分佈時，OLS 估計量遵循什麼分佈？