Bayesian

哈密 頓量/混合 MCMC“質量矩陣”術語

  • August 10, 2016

我正在嘗試使用非對角質量矩陣來實現 HMC,但我被一些術語絆倒了。

根據 BDA3 和 Neal 的評論,動能項(我猜為了方便總是使用它)是

這也是可識別的,稱為具有零均值和協方差矩陣的多元正態. BDA3 (pg 301) 說

為了簡單起見,我們通常使用對角質量矩陣 M。如果是這樣,則 φ 的分量是獨立的,對於每個維度 j = 1, φj ∼ N(0,Mjj)。. . ,d。對 M 使用後驗分佈的逆協方差矩陣 (var(θ|y))^-1 進行粗略縮放可能很有用。

(我正在閱讀 N(0, M)) 作為均值為零和協方差 M 的多元正態。)

讓我絆倒的部分是說“它可能對用後驗分佈的逆協方差矩陣粗略縮放……”。

然後也是在此之前開始越級步驟的動量樣本() 是從具有協方差矩陣的多元法線繪製的.

那麼它是哪一個?要為 HMC 構造一個好的 M,我應該估計後驗的協方差還是精度矩陣?雖然是動能的協方差矩陣,使用**那是對後驗精度矩陣的估計會產生更有效的算法嗎?

第二個問題:可以指導我的直覺是什麼?

  • 您是否想使用精確矩陣以使動量與勢能/後驗正交推動以改善混合?
  • 或者您是否希望動量推向後驗的高概率質量部分(因為那是您想要從中提取大多數樣本的地方)。

ps 我不使用單位矩陣的原因是因為對於我的問題,我碰巧能夠事先獲得我相當高維(~1000)後驗的協方差矩陣的不錯估計。

位置變量的線性變換等價於動量變量的線性變換。理想情況下,您希望從協方差矩陣為單位矩陣的(變換後的)分佈中進行採樣,這是通過上述變換獲得的。

有關詳細信息,Neal 的“使用哈密頓動力學的 MCMC”,馬爾可夫鏈蒙特卡羅手冊第 5 章,第 4.1 節(“線性變換的影響”)中有一個很好的解釋。本章可在此處獲得。

尼爾解釋說:

假設我們有一個估計, $ \Sigma $ , 的協方差矩陣 $ q $ , 並假設 $ q $ 至少具有大致高斯分佈。我們如何使用這些信息來提高 HMC 的性能?一種方法是變換變量,使它們的協方差矩陣接近恆等式,通過找到 Cholesky 分解, $ \Sigma = LL^T $ , 和 $ L $ 是下三角形,並且讓 $ q^\prime = L^{−1}q $ . [ $ \ldots $ ]

利用估計協方差的等效方法 $ \Sigma $ 是保持原樣 $ q $ 變量,但使用動能函數 $ K(p) = p^T \Sigma p/2 $ — 即,我們讓動量變量具有協方差 $ \Sigma^{−1} $ . 通過將這個動能轉換為對應於 $ q^\prime = L^{−1} q $ (見方程(4.1)),它給出 $ K(p^\prime) = (p^\prime)^T{M^\prime}^{−1}p^\prime $ 和 $ M^\prime = (L^{−1}(LL^T)(L^{−1})^T)^{−1} = I $ .

為了給出一些直覺,假設目標 pdf 是雪茄形的,指向一個非軸對齊的方向。您可以旋轉並重新縮放空間,使雪茄變成一個球,然後從單位多元法線繪製動量,或者等效地,您可以保留原始空間並繪製動量,使它們與雪茄對齊(例如,大部分速度沿雪茄的主軸,以便您可以快速探索它)。

引用自:https://stats.stackexchange.com/questions/229106

comments powered by Disqus