Bayesian

最大似然參數偏離後驗分佈

  • April 5, 2019

我有一個似然函數 $ \mathcal{L}(d | \theta) $ 對於我的數據的概率 $ d $ 給定一些模型參數 $ \theta \in \mathbf{R}^N $ ,我想估計一下。假設參數的先驗平坦,似然與後驗概率成正比。我使用 MCMC 方法對這個概率進行採樣。

查看生成的收斂鏈,我發現最大似然參數與後驗分佈不一致。例如,其中一個參數的邊緣化後驗概率分佈可能是 $ \theta_0 \sim N(\mu=0, \sigma^2=1) $ ,而值 $ \theta_0 $ 在最大似然點是 $ \theta_0^{ML} \approx 4 $ ,基本上幾乎是最大值 $ \theta_0 $ 由 MCMC 採樣器遍歷。

這是一個說明性的例子,不是我的實際結果。實際分佈要復雜得多,但一些 ML 參數在它們各自的後驗分佈中具有類似不太可能的 p 值。請注意,我的一些參數是有界的(例如 $ 0 \leq \theta_1 \leq 1 $ ); 在範圍內,先驗總是一致的。

我的問題是:

  1. 這種偏差本身是一個問題嗎?顯然,我不希望 ML 參數與每個邊緣化後驗分佈的最大值完全一致,但直覺上感覺它們也不應該在尾部深處找到。這種偏差會自動使我的結果無效嗎?
  2. 無論這是否一定有問題,它是否可能是數據分析某個階段特定病理的症狀?例如,是否可以就這樣的偏差是否可能由不正確的收斂鏈、不正確的模型或對參數的過緊限製做出任何一般性陳述?

對於平坦的先驗,後驗與可能性相同,直到一個常數。因此

  1. MLE(使用優化器估計)應該與 MAP 相同(最大後驗值 = 後驗的多變量模式,使用 MCMC 估計)。如果您沒有得到相同的值,則說明您的採樣器或優化器有問題。
  2. 對於復雜模型,邊緣模式與 MAP 不同是很常見的。例如,如果參數之間的相關性是非線性的,就會發生這種情況。這很好,但邊際模式因此不應被解釋為後驗密度最高的點,也不應與 MLE 進行比較。
  3. 但是,在您的具體情況下,我懷疑後部與先前的邊界相衝突。在這種情況下,後驗將是強不對稱的,用均值 sd 來解釋它是沒有意義的。這種情況沒有原則性問題,但在實踐中,它經常暗示模型指定錯誤或先驗選擇不當。

引用自:https://stats.stackexchange.com/questions/401349

comments powered by Disqus