Loading [MathJax]/jax/output/HTML-CSS/fonts/TeX/fontdata.js

為什麼期望最大化算法保證收斂到局部最優？

January 26, 2014

我已經閱讀了一些關於 EM 算法的解釋（例如來自 Bishop 的模式識別和機器學習以及來自 Roger 和 Gerolami First Course on Machine Learning）。EM的推導沒問題，我明白了。我也理解為什麼算法會覆蓋一些東西：在每一步我們都會改進結果，並且可能性以 1.0 為界，所以通過使用一個簡單的事實（如果一個函數增加並且有界，那麼它會收斂）我們知道算法會收斂到一些解決方案。

但是，我們怎麼知道它是局部最小值呢？在每一步我們只考慮一個坐標（潛在變量或參數），所以我們可能會錯過一些東西，比如局部最小值需要同時移動兩個坐標。

我認為這與一般類爬山算法的問題類似，EM 就是其中的一個例子。因此，對於一般的爬山算法，我們對函數 f(x, y) = x*y 有這個問題。如果我們從 (0, 0) 點開始，那麼只有同時考慮兩個方向，我們才能從 0 值向上移動。

EM 不能保證收斂到局部最小值。它只保證收斂到關於參數的梯度為零的點。所以它確實會卡在鞍點上。

引用自：https://stats.stackexchange.com/questions/83387

相關問答

Maximum-Likelihood

用最大似然法尋找類別

December 6, 2021

中心極限定理與一致性之間的差異

April 1, 2021

使用牛頓法優化 OLS

March 16, 2021

後驗何時收斂到點質量？

October 6, 2020

Random-Variable

做什麼磷(|Xn-X|≥ε)磷(|Xn-X|≥ε)P(|X_n - X| geq epsilon)直觀地表示？

August 19, 2020

Normal-Distribution

揭穿錯誤的 CLT 聲明

June 22, 2020