變分自動編碼器 - 了解潛在損失

September 21, 2017

我正在研究變分自動編碼器，我無法理解它們的成本函數。

我直觀地理解了這個原理，但沒有理解它背後的數學原理：在此處博客文章的“成本函數”段落中說：

換句話說，我們希望同時調整這些互補參數，以便在邊緣化潛在變量 zz 之後，最大化 log(p(x|φ,θ)) - 在當前模型設置下所有數據點 xx 的對數似然。該術語也稱為模型證據。

換句話說，我們希望從編碼器/解碼器參數 φ 和 θ 中求解對數似然函數，以便p從輸入樣本中找到更好地對其建模的概率分佈。

在那之後

我們可以將這種邊際似然表示為我們將稱為變分或證據下限 LL 和近似和真實潛在後驗之間的 Kullback-Leibler (KL) 散度 DKLDKL 的總和：log(p(x))=L( φ,θ;x)+DKL(qφ(z|x)||pθ(z|x))

這也只是此處段落中 KL 散度定義的數學計算。

現在重要的是它在定義上是非負的；因此，第一項作為總數的下限。因此，我們將下限 LL 最大化，作為模型下數據的總邊際可能性的（計算上易於處理的）代理。

這對我來說也是合理的。

通過一些數學爭論，我們可以將 LL 分解為以下目標函數：

我試圖遵循鏈接的論文上的“數學爭論” （2.2 - 變分界），但無法獲得上述函數。

有人可以幫我弄清楚嗎？

要獲得變分目標，請從邊際似然開始：

認識到這是一種期望：

使用 Jensen 不等式

使用對數的條件概率和屬性的 def：

使用 KL 散度的 def：

灑一些和視情況而定，我們有所需的格式。的調理在在他們的符號中恕我直言，有點不必要和令人困惑，因為選擇以最小化與後驗的分歧（儘管我知道他們正在標記它是後驗而不是先驗的近似值）。

引用自：https://stats.stackexchange.com/questions/304289

comments powered by Disqus

變分自動編碼器 - 了解潛在損失

相關問答

為什麼我們更關心機器學習中的測試錯誤而不是預期的測試錯誤？

為什麼我和我的同事對測試集和驗證集的定義相反？

XGboost 和深度學習模型中 Tweedie 或泊松損失/目標函數的用途是什麼

（為什麼）絕對損失不是正確的計分規則嗎？

機器學習中的損失函數——如何約束？

留一法交叉驗證 (LOOCV) 是否會系統地高估錯誤？