Bayesian

比較拉普拉斯近似和變分推理

  • December 26, 2017

有誰知道任何關於拉普拉斯近似和變分推理(具有正態近似分佈)之間關係的參考資料?也就是說,我正在尋找類似於分佈的條件,以使兩個近似值重合。

編輯:為了澄清一下,假設你想用密度來近似一些分佈 $ f(\theta) $ 你只知道比例。使用拉普拉斯近似時,您可以使用具有均值的正態分佈的密度對其進行近似 $ \hat{\mu}_1 $ 和協方差 $ \hat{\Sigma}_1 $ 在哪裡 $ \hat{\mu}1=\arg \max{\theta}f(\theta) $ 和 $ \hat{\Sigma}1=[-\nabla\nabla \log f(\theta)\mid{\theta=\hat{\mu}}]^{-1} $ . 當使用具有正態近似分佈的變分推理時,您可以使用具有均值的正態分佈的密度來近似它 $ \hat{\mu}_2 $ 和協方差 $ \hat{\Sigma}2 $ , 在哪裡 $ (\hat{\mu}2,\hat{\Sigma}2)=\arg \max{(\mu,\Sigma)}KL(\phi{(\mu,\Sigma)}||f) $ , $ KL $ 是 KL-Divergence,並且 $ \phi{(\mu,\Sigma)} $ 表示具有均值和協方差的正態密度 $ (\mu,\Sigma) $ . 我們在什麼條件下 $ (\hat{\mu}_1,\hat{\Sigma}_1)=(\hat{\mu}_2,\hat{\Sigma}_2) $ ?

我不知道任何一般性結果,但在本文中,作者對廣義線性混合模型 (GLMM) 的高斯變分近似 (GVA) 有一些想法。讓 $ \vec y $ 是觀察到的結果, $ X $ 是一個固定效應設計矩陣, $ Z $ 是一個隨機效應設計,表示一個未知的隨機效應 $ \vec U $ ,並考慮具有密度的 GLMM:

$$ \begin{align*} f_{\vec Y\mid\vec U} (\vec y;\vec u) &= \exp\left(\vec y^\top(X\vec\beta + Z\vec u)

  • \vec 1^\top b(X\vec\beta + Z\vec u)
  • \vec 1^\top c(\vec y)\right) \ f_{\vec U}(\vec u) &= \phi^{(K)}(\vec u;\vec 0, \Sigma) \ f(\vec y,\vec u) &= f_{\vec Y\mid\vec U} (\vec y;\vec u)f_{\vec U}(\vec u) \end{align*} $$

我使用與論文中相同的符號和 $ \phi^{(K)} $ 是一個 $ K $ 維多元正態分佈密度函數。

使用拉普拉斯近似

$$ g(\vec u) = \log f(\vec y,\vec u). $$

然後我們使用近似

$$ \log\int \exp(g(\vec u)) d\vec u \approx \frac K2\log{2\pi - \frac 12\log\lvert-g''(\widehat u)\rvert}

  • g(\widehat u) $$

在哪裡

$$ \widehat u = \text{argmax}_{\vec u} g(\vec u). $$

使用高斯變分近似

GVA 的下限與平均值 $ \vec\mu $ 和協方差矩陣 $ \Lambda $ 是:

$$ \begin{align*} \int \exp(g(\vec u)) d\vec u &\approx \vec y^\top(X\vec\beta + Z\vec\mu)

  • \vec 1^\top B(X\vec\beta + Z\vec\mu, \text{diag}(Z\Lambda Z^\top)) \ &\hspace{25pt}+ \vec 1^\top c(\vec y) + \frac 12 \Big( \log\lvert\Sigma^{-1}\rvert + \log\lvert\Lambda\rvert -\vec\mu^\top\Sigma^{-1}\vec\mu \ &\hspace{25pt} - \text{trace}(\Sigma^{-1}\Lambda)
  • K \Big) \ B(\mu,\sigma^2) &= \int b(\sigma x + \mu)\phi(x) d x \end{align*} $$

在哪裡 $ \text{diag}(\cdot) $ 返回一個對角矩陣。

比較兩者

假設我們可以證明 $ \Lambda\rightarrow 0 $ (隨機效應的估計條件協方差矩陣趨於零)。然後下限(不考慮行列式)趨向於:

$$ \begin{align*} \int \exp(g(\vec u)) d\vec u &\approx \vec y^\top(X\vec\beta + Z\vec\mu)

  • \vec 1^\top b(X\vec\beta + Z\vec\mu) \ &\hspace{25pt}+ \vec 1^\top c(\vec y) + \frac 12 \Big( \log\lvert\Sigma^{-1}\rvert -\vec\mu^\top\Sigma^{-1}\vec\mu + K\Big) \ &= g(\vec\mu) + \dots \end{align*} $$

其中點不依賴於模型參數, $ \vec\beta $ 和 $ \Sigma $ . 因此,最大化超過 $ \vec\mu $ 產量 $ \vec\mu\rightarrow \widehat u $ . 那麼拉普拉斯近似和 GVA 之間的唯一區別是

$$

  • \frac 12\log\lvert -g''(\widehat u)\rvert $$

學期。我們有那個

$$ -g''(\widehat u) = \Sigma^{-1} + Z^\top b''(X\vec\beta + Z\vec u)Z $$

其中導數相對於 $ \vec\eta = X\vec\beta + Z\vec u $ . 這不會趨向於零,因為隨機效應的條件分佈變得更加峰值。但是,仍然非常手波動,它可能會與

$$ \frac 12\log\lvert\Lambda\rvert = -\frac 12\log\lvert\Lambda^{-1}\rvert $$

我們在下限中忽略的術語。一階條件為 $ \Lambda $ 是:

$$ \Lambda^{-1} = \Sigma^{-1} + Z^\top B^{(2)}(X\vec\beta + Z\vec\mu, \text{diag}(Z\Lambda Z^\top)Z $$

在哪裡

$$ B^{(2)}(\mu,\sigma^2) = \int b''(\sigma x+ \mu)\phi(x) dx. $$

因此,如果 $ \vec\mu \approx \widehat u $ 和 $ \Lambda \approx 0 $ 然後:

$$ \Lambda^{-1} \approx \Sigma^{-1} + Z^\top b''(X\vec\beta + Z\vec u)Z $$

和拉普拉斯近似和 GVA 產生對數邊際似然的相同近似。

筆記

還請參閱Ryan Warnick 提到的年鑑論文。

引用自:https://stats.stackexchange.com/questions/320451

comments powered by Disqus