MaxEnt、ML、Bayes等統計推斷方法的比較
我絕不是統計學家(我有過數理統計課程,但僅此而已),最近,在學習信息論和統計力學時,我遇到了一個叫做“不確定性度量”/“熵”的東西。我把它的 Khinchin 推導讀作不確定性的衡量標準,這對我來說很有意義。另一件有意義的事情是 Jaynes 對 MaxEnt 的描述,以便在您知道樣本上一個或多個函數的算術平均值時獲得統計數據(假設您接受當然作為不確定性的衡量標準)。
於是我在網上搜索,尋找與其他統計推斷方法的關係,上帝把我搞糊塗了。例如,本文建議,假設我做對了,您只需在問題的適當重新表述下獲得一個 ML 估計器;MacKey 在他的書中說 MaxEnt 可以給你奇怪的東西,你不應該使用它,即使是在貝葉斯推理中的初始估計;等等。我很難找到好的比較。
我的問題是,您能否提供 MaxEnt 的弱點和強點的解釋和/或很好的參考作為一種統計推斷方法,並與其他方法進行定量比較(例如,當應用於玩具模型時)?
MaxEnt 和貝葉斯推理方法對應於將信息合併到建模過程中的不同方式。兩者都可以放在公理基礎上(John Skilling 的“Axioms of Maximum Entropy”和 Cox 的“Algebra of Probable Inference”)。
如果您的先驗知識以假設空間上可測量的實值函數的形式出現,那麼貝葉斯方法很容易應用,即所謂的“先驗”。當信息作為假設空間的一組硬約束時,MaxEnt 很簡單。在現實生活中,知識既不是“先驗”形式,也不是“約束”形式,所以你的方法的成功取決於你以相應形式表示你的知識的能力。
在一個玩具問題上,當先驗與假設的真實分佈相匹配時,貝葉斯模型平均將為您提供最低的平均對數損失(在許多模型繪製中平均)。MaxEnt 方法將在滿足其約束時為您提供最低的最壞情況對數損失(最差接管所有可能的先驗)
ETJaynes,被認為是“MaxEnt”方法之父,也依賴於貝葉斯方法。在他的書的第 1412 頁上,他給出了一個例子,其中貝葉斯方法產生了一個很好的解決方案,然後是一個 MaxEnt 方法更自然的例子。
最大似然本質上是將模型置於某個預先確定的模型空間內,並試圖“盡可能地”擬合它,因為它對所有模型選擇方法中的數據具有最高的敏感性,僅限於此類模型空間。MaxEnt 和 Bayesian 是框架,而 ML 是一種具體的模型擬合方法,對於某些特定的設計選擇,ML 最終可以採用 Bayesian 或 MaxEnt 方法的方法。例如,具有等式約束的 MaxEnt 等價於某個指數族的最大似然擬合。類似地,貝葉斯推理的近似可以導致正則化的最大似然解。如果您選擇先驗以使您的結論對數據最大敏感,則貝葉斯推理的結果將對應於最大似然擬合。例如,在伯努利試驗中,這樣的先驗將是限制分佈 Beta(0,0)
現實生活中的機器學習成功往往是各種哲學的混合體。例如,“隨機場”源自MaxEnt 原則。該想法最流行的實現,即正則化 CRF,涉及在參數上添加“先驗”。因此,該方法不是真正的 MaxEnt 也不是貝葉斯,而是受到這兩種思想流派的影響。
我在這里和這裡收集了一些關於貝葉斯和 MaxEnt 方法的哲學基礎的鏈接。
注意術語:有時人們稱他們的方法為貝葉斯,如果它在某些時候使用貝葉斯規則。同樣,“MaxEnt”有時用於某些有利於高熵解決方案的方法。這與上面描述的“MaxEnt 推理”或“貝葉斯推理”不同