比較拉普拉斯近似和變分推理
有誰知道任何關於拉普拉斯近似和變分推理(具有正態近似分佈)之間關係的參考資料?也就是說,我正在尋找類似於分佈的條件,以使兩個近似值重合。
編輯:為了澄清一下,假設你想用密度來近似一些分佈 $ f(\theta) $ 你只知道比例。使用拉普拉斯近似時,您可以使用具有均值的正態分佈的密度對其進行近似 $ \hat{\mu}_1 $ 和協方差 $ \hat{\Sigma}_1 $ 在哪裡 $ \hat{\mu}1=\arg \max{\theta}f(\theta) $ 和 $ \hat{\Sigma}1=[-\nabla\nabla \log f(\theta)\mid{\theta=\hat{\mu}}]^{-1} $ . 當使用具有正態近似分佈的變分推理時,您可以使用具有均值的正態分佈的密度來近似它 $ \hat{\mu}_2 $ 和協方差 $ \hat{\Sigma}2 $ , 在哪裡 $ (\hat{\mu}2,\hat{\Sigma}2)=\arg \max{(\mu,\Sigma)}KL(\phi{(\mu,\Sigma)}||f) $ , $ KL $ 是 KL-Divergence,並且 $ \phi{(\mu,\Sigma)} $ 表示具有均值和協方差的正態密度 $ (\mu,\Sigma) $ . 我們在什麼條件下 $ (\hat{\mu}_1,\hat{\Sigma}_1)=(\hat{\mu}_2,\hat{\Sigma}_2) $ ?
我不知道任何一般性結果,但在本文中,作者對廣義線性混合模型 (GLMM) 的高斯變分近似 (GVA) 有一些想法。讓 $ \vec y $ 是觀察到的結果, $ X $ 是一個固定效應設計矩陣, $ Z $ 是一個隨機效應設計,表示一個未知的隨機效應 $ \vec U $ ,並考慮具有密度的 GLMM:
$$ \begin{align*} f_{\vec Y\mid\vec U} (\vec y;\vec u) &= \exp\left(\vec y^\top(X\vec\beta + Z\vec u)
- \vec 1^\top b(X\vec\beta + Z\vec u)
- \vec 1^\top c(\vec y)\right) \ f_{\vec U}(\vec u) &= \phi^{(K)}(\vec u;\vec 0, \Sigma) \ f(\vec y,\vec u) &= f_{\vec Y\mid\vec U} (\vec y;\vec u)f_{\vec U}(\vec u) \end{align*} $$
我使用與論文中相同的符號和 $ \phi^{(K)} $ 是一個 $ K $ 維多元正態分佈密度函數。
使用拉普拉斯近似
讓
$$ g(\vec u) = \log f(\vec y,\vec u). $$
然後我們使用近似
$$ \log\int \exp(g(\vec u)) d\vec u \approx \frac K2\log{2\pi - \frac 12\log\lvert-g''(\widehat u)\rvert}
- g(\widehat u) $$
在哪裡
$$ \widehat u = \text{argmax}_{\vec u} g(\vec u). $$
使用高斯變分近似
GVA 的下限與平均值 $ \vec\mu $ 和協方差矩陣 $ \Lambda $ 是:
$$ \begin{align*} \int \exp(g(\vec u)) d\vec u &\approx \vec y^\top(X\vec\beta + Z\vec\mu)
- \vec 1^\top B(X\vec\beta + Z\vec\mu, \text{diag}(Z\Lambda Z^\top)) \ &\hspace{25pt}+ \vec 1^\top c(\vec y) + \frac 12 \Big( \log\lvert\Sigma^{-1}\rvert + \log\lvert\Lambda\rvert -\vec\mu^\top\Sigma^{-1}\vec\mu \ &\hspace{25pt} - \text{trace}(\Sigma^{-1}\Lambda)
- K \Big) \ B(\mu,\sigma^2) &= \int b(\sigma x + \mu)\phi(x) d x \end{align*} $$
在哪裡 $ \text{diag}(\cdot) $ 返回一個對角矩陣。
比較兩者
假設我們可以證明 $ \Lambda\rightarrow 0 $ (隨機效應的估計條件協方差矩陣趨於零)。然後下限(不考慮行列式)趨向於:
$$ \begin{align*} \int \exp(g(\vec u)) d\vec u &\approx \vec y^\top(X\vec\beta + Z\vec\mu)
- \vec 1^\top b(X\vec\beta + Z\vec\mu) \ &\hspace{25pt}+ \vec 1^\top c(\vec y) + \frac 12 \Big( \log\lvert\Sigma^{-1}\rvert -\vec\mu^\top\Sigma^{-1}\vec\mu + K\Big) \ &= g(\vec\mu) + \dots \end{align*} $$
其中點不依賴於模型參數, $ \vec\beta $ 和 $ \Sigma $ . 因此,最大化超過 $ \vec\mu $ 產量 $ \vec\mu\rightarrow \widehat u $ . 那麼拉普拉斯近似和 GVA 之間的唯一區別是
$$
- \frac 12\log\lvert -g''(\widehat u)\rvert $$
學期。我們有那個
$$ -g''(\widehat u) = \Sigma^{-1} + Z^\top b''(X\vec\beta + Z\vec u)Z $$
其中導數相對於 $ \vec\eta = X\vec\beta + Z\vec u $ . 這不會趨向於零,因為隨機效應的條件分佈變得更加峰值。但是,仍然非常手波動,它可能會與
$$ \frac 12\log\lvert\Lambda\rvert = -\frac 12\log\lvert\Lambda^{-1}\rvert $$
我們在下限中忽略的術語。一階條件為 $ \Lambda $ 是:
$$ \Lambda^{-1} = \Sigma^{-1} + Z^\top B^{(2)}(X\vec\beta + Z\vec\mu, \text{diag}(Z\Lambda Z^\top)Z $$
在哪裡
$$ B^{(2)}(\mu,\sigma^2) = \int b''(\sigma x+ \mu)\phi(x) dx. $$
因此,如果 $ \vec\mu \approx \widehat u $ 和 $ \Lambda \approx 0 $ 然後:
$$ \Lambda^{-1} \approx \Sigma^{-1} + Z^\top b''(X\vec\beta + Z\vec u)Z $$
和拉普拉斯近似和 GVA 產生對數邊際似然的相同近似。
筆記
還請參閱Ryan Warnick 提到的年鑑論文。