哈密 頓量/混合 MCMC“質量矩陣”術語
我正在嘗試使用非對角質量矩陣來實現 HMC,但我被一些術語絆倒了。
根據 BDA3 和 Neal 的評論,動能項(我猜為了方便總是使用它)是
這也是可識別的,稱為具有零均值和協方差矩陣的多元正態. BDA3 (pg 301) 說
為了簡單起見,我們通常使用對角質量矩陣 M。如果是這樣,則 φ 的分量是獨立的,對於每個維度 j = 1, φj ∼ N(0,Mjj)。. . ,d。對 M 使用後驗分佈的逆協方差矩陣 (var(θ|y))^-1 進行粗略縮放可能很有用。
(我正在閱讀 N(0, M)) 作為均值為零和協方差 M 的多元正態。)
讓我絆倒的部分是說“它可能對用後驗分佈的逆協方差矩陣粗略縮放……”。
然後也是在此之前開始越級步驟的動量樣本() 是從具有協方差矩陣的多元法線繪製的.
那麼它是哪一個?要為 HMC 構造一個好的 M,我應該估計後驗的協方差還是精度矩陣?雖然是動能的協方差矩陣,使用**那是對後驗精度矩陣的估計會產生更有效的算法嗎?
第二個問題:可以指導我的直覺是什麼?
- 您是否想使用精確矩陣以使動量與勢能/後驗正交推動以改善混合?
- 或者您是否希望動量推向後驗的高概率質量部分(因為那是您想要從中提取大多數樣本的地方)。
ps 我不使用單位矩陣的原因是因為對於我的問題,我碰巧能夠事先獲得我相當高維(~1000)後驗的協方差矩陣的不錯估計。
位置變量的線性變換等價於動量變量的逆線性變換。理想情況下,您希望從協方差矩陣為單位矩陣的(變換後的)分佈中進行採樣,這是通過上述變換獲得的。
有關詳細信息,Neal 的“使用哈密頓動力學的 MCMC”,馬爾可夫鏈蒙特卡羅手冊第 5 章,第 4.1 節(“線性變換的影響”)中有一個很好的解釋。本章可在此處獲得。
尼爾解釋說:
假設我們有一個估計, $ \Sigma $ , 的協方差矩陣 $ q $ , 並假設 $ q $ 至少具有大致高斯分佈。我們如何使用這些信息來提高 HMC 的性能?一種方法是變換變量,使它們的協方差矩陣接近恆等式,通過找到 Cholesky 分解, $ \Sigma = LL^T $ , 和 $ L $ 是下三角形,並且讓 $ q^\prime = L^{−1}q $ . [ $ \ldots $ ]
利用估計協方差的等效方法 $ \Sigma $ 是保持原樣 $ q $ 變量,但使用動能函數 $ K(p) = p^T \Sigma p/2 $ — 即,我們讓動量變量具有協方差 $ \Sigma^{−1} $ . 通過將這個動能轉換為對應於 $ q^\prime = L^{−1} q $ (見方程(4.1)),它給出 $ K(p^\prime) = (p^\prime)^T{M^\prime}^{−1}p^\prime $ 和 $ M^\prime = (L^{−1}(LL^T)(L^{−1})^T)^{−1} = I $ .
為了給出一些直覺,假設目標 pdf 是雪茄形的,指向一個非軸對齊的方向。您可以旋轉並重新縮放空間,使雪茄變成一個球,然後從單位多元法線繪製動量,或者等效地,您可以保留原始空間並繪製動量,使它們與雪茄對齊(例如,大部分速度沿雪茄的主軸,以便您可以快速探索它)。