Missing-Data
為什麼期望最大化算法保證收斂到局部最優?
我已經閱讀了一些關於 EM 算法的解釋(例如來自 Bishop 的模式識別和機器學習以及來自 Roger 和 Gerolami First Course on Machine Learning)。EM的推導沒問題,我明白了。我也理解為什麼算法會覆蓋一些東西:在每一步我們都會改進結果,並且可能性以 1.0 為界,所以通過使用一個簡單的事實(如果一個函數增加並且有界,那麼它會收斂)我們知道算法會收斂到一些解決方案。
但是,我們怎麼知道它是局部最小值呢?在每一步我們只考慮一個坐標(潛在變量或參數),所以我們可能會錯過一些東西,比如局部最小值需要同時移動兩個坐標。
我認為這與一般類爬山算法的問題類似,EM 就是其中的一個例子。因此,對於一般的爬山算法,我們對函數 f(x, y) = x*y 有這個問題。如果我們從 (0, 0) 點開始,那麼只有同時考慮兩個方向,我們才能從 0 值向上移動。
EM 不能保證收斂到局部最小值。它只保證收斂到關於參數的梯度為零的點。所以它確實會卡在鞍點上。