Outliers
Beta 分佈中的異常值檢測
假設我有大量的值樣本. 我想估計底層分配。大多數樣本來自這個假設分佈,而其餘的是我想在估計時忽略的異常值和.
有什麼好的方法可以解決這個問題?
標準:箱線圖中使用的公式是一個不好的近似值?
解決這個問題的更有**原則的方法是什麼?**是否有任何特定的先驗和這在這類問題上會很好用嗎?
處理這個問題的更系統的方法是使用明確的混合模型,並指定“異常值”的分佈。一個簡單的形式是使用 beta 分佈(對於您感興趣的點)和均勻分佈(對於“異常值”)的混合。通過將數據建模為混合分佈,您可以獲得和這會自動考慮到某些點可能是異常值的事實。
為了使用混合模型解決這個問題,讓是“異常值”的概率並假設您具有 IID 值. 觀測數據的似然函數為:
您可以從這裡開始使用經典的 MLE 或貝葉斯估計。兩者都需要數值技術。估計模型中的三個參數後,您將估計和這會自動包含異常值的可能性。您還可以估計混合模型中異常值的比例。