Bayesian
變分貝葉斯與EM的關係
我在某處讀到變分貝葉斯方法是 EM 算法的推廣。實際上,算法的迭代部分非常相似。為了測試 EM 算法是否是變分貝葉斯的特殊版本,我嘗試了以下方法:
- 是數據,是潛在變量的集合,並且是參數。在變分貝葉斯中,我們可以做一個近似,使得. 在哪裡s 是更簡單、易於處理的分佈。
- 由於 EM 算法找到了 MAP 點估計,我認為如果我使用 Delta 函數,Variational Bayes 可以收斂到 EM:.是通常在 EM 中所做的參數的第一次估計。
- 什麼時候給出,最小化 KL Divergence 由公式找到
上面的公式簡化為,這一步結果相當於 EM 算法的 Expectation 步驟!
但是我不能將最大化步驟作為此步驟的延續。下一步我們需要計算根據變分貝葉斯迭代規則,這是:
VB和EM算法真的是這樣聯繫的嗎?我們如何將 EM 推導出為變分貝葉斯的特例,我的方法是否正確?
你的方法是正確的。在近似後驗的約束下,EM 等價於 VB被約束為一個點質量。(這在貝葉斯數據分析的第 337 頁沒有證明就提到了。)讓是這個點質量的未知位置:
VB 將最小化以下 KL 散度:
最低超過給出 EM 的 E 步長,並且最小超過給出 EM 的 M 步。 當然,如果您要實際評估 KL 散度,那將是無限的。但是,如果您認為 delta 函數是一個限制,這不是問題。