為什麼EM算法名稱中有E?
我了解 E 步驟在算法中發生的位置(如下面的數學部分所述)。在我看來,該算法的關鍵獨創性是使用 Jensen 不等式來創建對數似然的下限。從這個意義上說,
Expectation
只需簡單地重新制定對數可能性以適應 Jensen 不等式(即為凹函數。)所謂的E-step有什麼原因嗎?我們所期待的事情是否有任何意義(即? 我覺得我錯過了為什麼期望如此重要背後的一些直覺,而不是簡單地偶然使用 Jensen 的不等式。
編輯:教程說:
“E-step”這個名字來源於這樣一個事實,即人們通常不需要明確地形成完成的概率分佈,而只需要計算這些完成的“預期”足夠的統計數據。
“通常不需要明確地形成完成的概率分佈”是什麼意思?這個概率分佈會是什麼樣子?
附錄:EM算法中的E-step
期望是 EM 算法的核心。首先,與數據相關的可能性 $ (x_1,\ldots,x_n) $ 表示為期望 $$ \begin{align*} p(x_1,\ldots,x_n;\theta) &= \int_\mathfrak{{Z}^n} p(x_1,\ldots,x_n,\mathfrak{z}_1,\ldots,\mathfrak{z}n;\theta),\text{d}\mathbf{\mathfrak{z}}\ &=\int\mathfrak{{Z}^n} p(x_1,\ldots,x_n|\mathfrak{z}_1,\ldots,\mathfrak{z}_n,\theta)p(\mathfrak{z}_1,\ldots,\mathfrak{z}n;\theta),\text{d}\mathbf{\mathfrak{z}}\ &=\mathbb{E}\theta\left[ p(x_1,\ldots,x_n|\mathfrak{z}_1,\ldots,\mathfrak{z}_n,\theta)\right] \end{align*} $$ 其中期望是根據潛在向量的邊際分佈 $ (\mathfrak{z}_1,\ldots,\mathfrak{z}_n) $ ,這取決於 $ \theta $ .
EM 背後的直覺也是基於一種預期。自從 $ \log p(x_1,\ldots,x_n;\theta) $ 不能直接優化,而 $ \log p(x_1,\ldots,x_n,\mathfrak{z}_1,\ldots,\mathfrak{z}_n;\theta) $ 可以但取決於未觀察到的 $ \mathfrak{z}i $ 的,想法是最大化而不是期望的完全對數似然$$ \mathbb{E}\vartheta\left[ \log p(x_1,\ldots,x_n,\mathfrak{z}_1,\ldots,\mathfrak{z}n;\theta) \big| x_1,\ldots,x_n \right] $$ 除了這個期望也取決於一個值 $ \vartheta $ , 選為 $ \theta_0 $ , 說, 因此函數最大化 (在 $ \theta $ ) 在 M 步驟中: $$ Q(\theta_0,\theta)=\mathbb{E}{\theta_0}\left[ \log p(x_1,\ldots,x_n,\mathfrak{z}_1,\ldots,\mathfrak{z}_n;\theta) \big| x_1,\ldots,x_n \right] $$Jensen 不等式僅作為每 M 步中觀察到的可能性 增加的理由。