為什麼EM算法名稱中有E？

February 28, 2015

我了解 E 步驟在算法中發生的位置（如下面的數學部分所述）。在我看來，該算法的關鍵獨創性是使用 Jensen 不等式來創建對數似然的下限。從這個意義上說，Expectation只需簡單地重新制定對數可能性以適應 Jensen 不等式（即為凹函數。）

所謂的E-step有什麼原因嗎？我們所期待的事情是否有任何意義（即? 我覺得我錯過了為什麼期望如此重要背後的一些直覺，而不是簡單地偶然使用 Jensen 的不等式。

編輯：教程說：

“E-step”這個名字來源於這樣一個事實，即人們通常不需要明確地形成完成的概率分佈，而只需要計算這些完成的“預期”足夠的統計數據。

“通常不需要明確地形成完成的概率分佈”是什麼意思？這個概率分佈會是什麼樣子？

附錄：EM算法中的E-step

期望是 EM 算法的核心。首先，與數據相關的可能性表示為期望 $$ \begin{align*} p(x_1,\ldots,x_n;\theta) &= \int_\mathfrak{{Z}^n} p(x_1,\ldots,x_n,\mathfrak{z}_1,\ldots,\mathfrak{z}n;\theta),\text{d}\mathbf{\mathfrak{z}}\ &=\int\mathfrak{{Z}^n} p(x_1,\ldots,x_n|\mathfrak{z}_1,\ldots,\mathfrak{z}_n,\theta)p(\mathfrak{z}_1,\ldots,\mathfrak{z}n;\theta),\text{d}\mathbf{\mathfrak{z}}\ &=\mathbb{E}\theta\left[ p(x_1,\ldots,x_n|\mathfrak{z}_1,\ldots,\mathfrak{z}_n,\theta)\right] \end{align*} $$ 其中期望是根據潛在向量的邊際分佈，這取決於 .

EM 背後的直覺也是基於一種預期。自從不能直接優化，而可以但取決於未觀察到的 $ \mathfrak{z}i $ \mathbb{E}\vartheta\left[ \log p(x_1,\ldots,x_n,\mathfrak{z}_1,\ldots,\mathfrak{z}n;\theta) \big| x_1,\ldots,x_n \right] $$ 除了這個期望也取決於一個值 , 選為 , 說, 因此函數最大化 (在 ) 在 M 步驟中： $$ Q(\theta_0,\theta)=\mathbb{E}{\theta_0}\left[ \log p(x_1,\ldots,x_n,\mathfrak{z}_1,\ldots,\mathfrak{z}_n;\theta) \big| x_1,\ldots,x_n \right] $$Jensen 不等式僅作為每 M 步中觀察到的可能性增加的理由。

引用自：https://stats.stackexchange.com/questions/139700

為什麼EM算法名稱中有E？

相關問答

深度學習的模擬退火：為什麼無梯度統計學習不是主流？

用最大似然法尋找類別

RMSE 與 MSE 損失函數 - 優化解決方案是等價的嗎？

線性回歸和最小二乘回歸一定是一回事嗎？

為什麼我們在進行 MLE 時將對數似然乘以 -2？

使用牛頓法優化 OLS