最大似然何時對應於參考先驗？

August 20, 2016

我一直在閱讀 James V. Stone 的非常好的書籍《貝葉斯法則》和《信息論》。我想知道書的哪些部分我不明白，因此需要進一步重新閱讀。我寫下的以下註釋似乎自相矛盾：

MLE 總是對應於統一先驗（統一先驗的 MAP 就是 MLE）。

有時統一的先驗是不可能的（當數據缺少上限或下限時）。

使用 MLE 而不是 MAP 的非貝葉斯分析基本上迴避或忽略了對先驗信息建模的問題，因此總是假設沒有先驗信息。

非信息性（也稱為參考）先驗對應於最大化後驗和先驗之間的 Kullback-Leibler 散度，或等效於參數之間的互信息 $ \theta $ 和隨機變量 $ X $ .

有時參考先驗並不統一，它也可以是 Jeffreys 先驗。

貝葉斯推理總是使用 MAP，非貝葉斯推理總是使用 MLE。

**問題：**以上哪個是錯誤的？

即使非貝葉斯分析並不總是對應於“總是使用 MLE”，那麼 MLE 估計是否總是對應於貝葉斯推理的特殊情況？

如果是這樣，在什麼情況下是特殊情況（統一或參考先驗）？

根據 CrossValidated 上對問題[1] [2] [3] [4]的回答，似乎 1. 以上是正確的。

我問的上一個問題的共識似乎是非貝葉斯分析不能簡化為貝葉斯分析的特例。因此我的猜測是上面的 6. 是不正確的。

正確，只要統一先驗的支持包含 MLE。原因是後驗和似然在統一先驗的支持上成正比。即使 MAP 和 MLE 在數值上一致，它們的解釋也是完全不同的。

錯誤的。先驗的支持當然取決於位置和尺度（例如，如果數據以納米或秒差距報告），但通常可以做出適當的選擇。您可能需要使用一個巨大的緊湊集作為支撐，但它仍然是可能的。

它不使用先驗分佈意義上的先驗信息（因為它們是完全不同的推理方法），但總是有用戶注入的信息。模型的選擇是先驗信息的一種形式。如果你讓 10 個人來擬合一個數據集，他們中的一些人可能會得出不同的答案。

是的。看看下面的參考資料

參考先驗的正式定義

杰弗里斯先驗和參考先驗

參考先驗和杰弗里斯先驗在單參數模型（一維參數）中是相同的，但一般情況並非如此。它們對於位置參數是統一的，但對於比例和形狀參數則不是這樣。即使對於正態分佈的尺度參數，它們也是不同的（參見我以前的參考資料）。

錯誤的。真正的貝葉斯主義者使用後驗分佈來獲得貝葉斯估計量。MAP 就是其中之一，但還有很多其他的。請參閱Wikipedia 關於貝葉斯估計器的文章。

非貝葉斯主義者並不總是使用 MLE。一個例子是James-Stein 估計器，它基於與最大化似然函數不同的標準。

引用自：https://stats.stackexchange.com/questions/230810

comments powered by Disqus

最大似然何時對應於參考先驗？

相關問答

在貝葉斯模型中，您可以使用 Uniform(-inf, inf) 作為先驗嗎？

用最大似然法尋找類別

MLE 和非正態性

為什麼最大似然估計量對異常值是可疑的？

在實踐中如何實現神經網絡參數的先驗分佈？

如何估計相關觀測值的方差？