變分貝葉斯與EM的關係

July 3, 2014

我在某處讀到變分貝葉斯方法是 EM 算法的推廣。實際上，算法的迭代部分非常相似。為了測試 EM 算法是否是變分貝葉斯的特殊版本，我嘗試了以下方法：

是數據，是潛在變量的集合，並且是參數。在變分貝葉斯中，我們可以做一個近似，使得. 在哪裡s 是更簡單、易於處理的分佈。

由於 EM 算法找到了 MAP 點估計，我認為如果我使用 Delta 函數，Variational Bayes 可以收斂到 EM：.是通常在 EM 中所做的參數的第一次估計。

什麼時候給出，最小化 KL Divergence 由公式找到

上面的公式簡化為，這一步結果相當於 EM 算法的 Expectation 步驟！

但是我不能將最大化步驟作為此步驟的延續。下一步我們需要計算根據變分貝葉斯迭代規則，這是：

VB和EM算法真的是這樣聯繫的嗎？我們如何將 EM 推導出為變分貝葉斯的特例，我的方法是否正確？

你的方法是正確的。在近似後驗的約束下，EM 等價於 VB被約束為一個點質量。（這在貝葉斯數據分析的第 337 頁沒有證明就提到了。）讓是這個點質量的未知位置：

VB 將最小化以下 KL 散度：

最低超過給出 EM 的 E 步長，並且最小超過給出 EM 的 M 步。當然，如果您要實際評估 KL 散度，那將是無限的。但是，如果您認為 delta 函數是一個限制，這不是問題。

引用自：https://stats.stackexchange.com/questions/105661

comments powered by Disqus

相關問答

Maximum-Likelihood

用最大似然法尋找類別

December 6, 2021

Neural-Networks

為什麼我們在變分自動編碼器中使用高斯分佈？

April 11, 2019

我應該如何直觀地理解變分自編碼器中的 KL 散度損失？[複製]

February 25, 2019

沒有採樣的高維推理問題中的不確定性估計？

February 22, 2019

Machine-Learning

高斯 VAE 的優化是否合適？

October 26, 2018

Machine-Learning

當使用變分自動編碼器生成樣本時，我們從ñ(0,1)ñ(0,1)N(0,1)代替μ+σñ(0,1)μ+σñ(0,1)mu + sigma N(0,1)

October 1, 2018