MaxEnt、ML、Bayes等統計推斷方法的比較

November 28, 2010

我絕不是統計學家（我有過數理統計課程，但僅此而已），最近，在學習信息論和統計力學時，我遇到了一個叫做“不確定性度量”/“熵”的東西。我把它的 Khinchin 推導讀作不確定性的衡量標準，這對我來說很有意義。另一件有意義的事情是 Jaynes 對 MaxEnt 的描述，以便在您知道樣本上一個或多個函數的算術平均值時獲得統計數據（假設您接受當然作為不確定性的衡量標準）。

於是我在網上搜索，尋找與其他統計推斷方法的關係，上帝把我搞糊塗了。例如，本文建議，假設我做對了，您只需在問題的適當重新表述下獲得一個 ML 估計器；MacKey 在他的書中說 MaxEnt 可以給你奇怪的東西，你不應該使用它，即使是在貝葉斯推理中的初始估計；等等。我很難找到好的比較。

我的問題是，您能否提供 MaxEnt 的弱點和強點的解釋和/或很好的參考作為一種統計推斷方法，並與其他方法進行定量比較（例如，當應用於玩具模型時）？

MaxEnt 和貝葉斯推理方法對應於將信息合併到建模過程中的不同方式。兩者都可以放在公理基礎上（John Skilling 的“Axioms of Maximum Entropy”和 Cox 的“Algebra of Probable Inference”）。

如果您的先驗知識以假設空間上可測量的實值函數的形式出現，那麼貝葉斯方法很容易應用，即所謂的“先驗”。當信息作為假設空間的一組硬約束時，MaxEnt 很簡單。在現實生活中，知識既不是“先驗”形式，也不是“約束”形式，所以你的方法的成功取決於你以相應形式表示你的知識的能力。

在一個玩具問題上，當先驗與假設的真實分佈相匹配時，貝葉斯模型平均將為您提供最低的平均對數損失（在許多模型繪製中平均）。MaxEnt 方法將在滿足其約束時為您提供最低的最壞情況對數損失（最差接管所有可能的先驗）

ETJaynes，被認為是“MaxEnt”方法之父，也依賴於貝葉斯方法。在他的書的第 1412 頁上，他給出了一個例子，其中貝葉斯方法產生了一個很好的解決方案，然後是一個 MaxEnt 方法更自然的例子。

最大似然本質上是將模型置於某個預先確定的模型空間內，並試圖“盡可能地”擬合它，因為它對所有模型選擇方法中的數據具有最高的敏感性，僅限於此類模型空間。MaxEnt 和 Bayesian 是框架，而 ML 是一種具體的模型擬合方法，對於某些特定的設計選擇，ML 最終可以採用 Bayesian 或 MaxEnt 方法的方法。例如，具有等式約束的 MaxEnt 等價於某個指數族的最大似然擬合。類似地，貝葉斯推理的近似可以導致正則化的最大似然解。如果您選擇先驗以使您的結論對數據最大敏感，則貝葉斯推理的結果將對應於最大似然擬合。例如，在伯努利試驗中，這樣的先驗將是限制分佈 Beta(0,0)

現實生活中的機器學習成功往往是各種哲學的混合體。例如，“隨機場”源自MaxEnt 原則。該想法最流行的實現，即正則化 CRF，涉及在參數上添加“先驗”。因此，該方法不是真正的 MaxEnt 也不是貝葉斯，而是受到這兩種思想流派的影響。

我在這里和這裡收集了一些關於貝葉斯和 MaxEnt 方法的哲學基礎的鏈接。

注意術語：有時人們稱他們的方法為貝葉斯，如果它在某些時候使用貝葉斯規則。同樣，“MaxEnt”有時用於某些有利於高熵解決方案的方法。這與上面描述的“MaxEnt 推理”或“貝葉斯推理”不同

引用自：https://stats.stackexchange.com/questions/4978

MaxEnt、ML、Bayes等統計推斷方法的比較

相關問答

如何解釋 Pearl 的 do 表示法？

傾向得分匹配的用例是什麼？

現實世界問題中的隨機抽樣和獨立性

拋硬幣 n 次的假設檢驗

什麼是“似然原則”？

如果您多次執行相同的測試，您可以將 p 值相乘嗎？