Beta 分佈中的異常值檢測

May 14, 2014

假設我有大量的值樣本. 我想估計底層分配。大多數樣本來自這個假設分佈，而其餘的是我想在估計時忽略的異常值和.

有什麼好的方法可以解決這個問題？

標準：箱線圖中使用的公式是一個不好的近似值？

解決這個問題的更有**原則的方法是什麼？**是否有任何特定的先驗和這在這類問題上會很好用嗎？

處理這個問題的更系統的方法是使用明確的混合模型，並指定“異常值”的分佈。一個簡單的形式是使用 beta 分佈（對於您感興趣的點）和均勻分佈（對於“異常值”）的混合。通過將數據建模為混合分佈，您可以獲得和這會自動考慮到某些點可能是異常值的事實。

為了使用混合模型解決這個問題，讓是“異常值”的概率並假設您具有 IID 值. 觀測數據的似然函數為：

您可以從這裡開始使用經典的 MLE 或貝葉斯估計。兩者都需要數值技術。估計模型中的三個參數後，您將估計和這會自動包含異常值的可能性。您還可以估計混合模型中異常值的比例。

引用自：https://stats.stackexchange.com/questions/97686

comments powered by Disqus

相關問答

指數分佈的隨機變量的指數分佈？

November 28, 2021

beta 分佈隨機變量的 argmax 分佈

October 13, 2021

Random-Variable

Beta(1,1) 隨機變量的平方根

April 30, 2021

德國的 COVID，時間序列的 LOO-CV

May 22, 2020

Machine-Learning

概率編程與“傳統”機器學習

May 18, 2018

貝塔變量和均勻變量的組合分佈

January 18, 2018