Self-Study

為什麼 MAP 會收斂到 MLE?

  • March 1, 2018

在 Kevin Murphy 的“機器學習:概率視角”第 3.2 章中,作者通過一個名為“數字遊戲”的示例演示了貝葉斯概念學習:樣品來自,我們要選擇一個假設這最好地描述了生成樣本的規則。例如“偶數”或“素數”。

最大後驗和最大似然估計定義為:

在哪裡表示各種假設的先驗概率,後驗概率定義為:

當且當,即從假設中替換的均勻抽樣的可能性有多大將產生集. 直觀地說,這意味著“最小”假設的後驗率最高。例如,假設“2 的冪”解釋了觀察結果比“偶數”更好。

這一切都很清楚。但是,我對以下句子感到困惑(儘管直​​覺上它很有意義):

因為似然項成指數地取決於,並且先驗保持不變,隨著我們獲得越來越多的數據,MAP 估計收斂於最大似然估計。

確實,可能性成指數地取決於,但是,取冪的數在區間內並作為,,所以這種可能性實際上應該消失。

為什麼在這種情況下 MAP 會收斂到 MLE?

這裡有兩個問題,首先,為什麼 MAP 通常(但不總是)收斂到 MLE 和“消失的可能性”問題。

對於第一個問題,我們將自己稱為伯恩斯坦 - 馮米塞斯定理。它的本質是,隨著樣本量的增長,包含在先驗和數據中的相關信息向有利於數據的方向移動,因此後驗變得更加集中在 MLE 的僅數據估計周圍,並且峰值實際上收斂到 MLE(通常需要滿足某些假設的警告。)請參閱Wikipedia 頁面以獲取簡要概述。

對於第二個問題,這是因為您沒有標準化後驗密度。根據貝葉斯法則:

而且,雖然作為,正如你所觀察到的那樣. 為了更具體一點,如果我們假設兩個假設和,我們通過以下方式找到後驗:

分子和分母都有項的冪, 所以兩者作為,但應該清楚的是,所需的規範化修復了否則會導致的問題。

引用自:https://stats.stackexchange.com/questions/331312

comments powered by Disqus