Markov-Chain-Montecarlo

斯坦𝑅̂R^hat{R}與格爾曼-魯賓𝑅̂R^hat{R}定義

  • May 30, 2018

我正在瀏覽可以從這裡下載的 Stan 文檔。我對他們實施 Gelman-Rubin 診斷特別感興趣。原始論文Gelman & Rubin (1992)將潛在比例縮減因子 (PSRF) 定義如下:

讓 $ X_{i,1}, \dots , X_{i,N} $ 成為 $ i $ th 馬爾可夫鏈採樣,並讓有整體 $ M $ 採樣的獨立鏈。讓 $ \bar{X}{i\cdot} $ 是從的平均值 $ i $ 鏈條,和 $ \bar{X}{\cdot \cdot} $ 成為整體平均值。定義, $$ W = \dfrac{1}{M} \sum_{m=1}^{M} {s^2_m}, $$ 在哪裡 $$ s^2_m = \dfrac{1}{N-1} \sum_{t=1}^{N} (X_{m t} - \bar{X}{m \cdot})^2,. $$ 並定義 $ B $ $$ B = \dfrac{N}{M-1} \sum{m=1}^{M} (\bar{X}{m \cdot} - \bar{X}{\cdot \cdot})^2 ,. $$

定義$$ \hat{V} = \left(\dfrac{N-1}{N} \right)W + \left( \dfrac{M+1}{MN} \right)B,. $$ PSRF 估計為 $ \sqrt{\hat{R}} $ 在哪裡 $$ \hat{R} = \dfrac{\hat{V}}{W} \cdot \dfrac{df+3}{df+1},, $$ 在哪裡 $ df = 2\hat{V}/Var(\hat{V}) $ .

第 349 頁的 Stan 文檔忽略了與 $ df $ 並且還刪除了 $ (M+1)/M $ 乘法項。這是他們的公式,

方差估計量是 $$ \widehat{\text{var}}^{+}(\theta , | , y) = \frac{N-1}{N} W + \frac{1}{N} B,. $$ 最後,潛在規模縮減統計量定義為 $$ \hat{R} = \sqrt{\frac{\widehat{\text{var}}^{+}(\theta , | , y) }{W}},. $$

據我所知,他們沒有為這種公式的變化提供參考,也沒有討論它。通常 $ M $ 不太大,通常可以低至 $ 2 $ , 所以 $ (M+1)/M $ 不應忽視,即使 $ df $ 項可以用 1 來近似。

那麼這個公式是從哪裡來的呢?


編輯: 我找到了“這個公式從何而來? ”這個問題的部分答案,因為 Gelman、Carlin、Stern 和 Rubin 的貝葉斯數據分析書(第二版)具有完全相同的公式。但是,這本書沒有解釋如何/為什麼忽略這些術語是合理的?

我遵循了為 Gelman & Rubin (1992) 提供的特定鏈接,它有

和後來的版本一樣,雖然替換為在 Brooks & Gelman (1998) 和與在 BDA2(Gelman 等人,2003)和 BDA3(Gelman 等人,2013)中。 BDA2 和 BDA3(現在無法檢查 BDA1)有一個帶有提示的練習來表明是對期望數量的無偏估計。

Gelman & Brooks (1998) 有方程 1.1

可以重新排列為

我們可以看到,第二項和第三項對決策的影響可以忽略不計很大。另見 Brooks & Gelman (1998) 第 3.1 節之前段落中的討論。 Gelman & Rubin (1992) 也有 df 為 df/(df-2) 的術語。Brooks & Gelman (1998) 有一節描述了為什麼這個 df 校正不正確並​​定義了 (df+3)/(df+1)。Brooks & Gelman (1998) 中第 3.1 節之前的段落解釋了為什麼可以刪除 (d+3)/(d+1)。

看來你的方程來源是 Brooks & Gelman (1998) 之後的東西,因為你在那裡有 (d+3)/(d+1),而 Gelman & Rubin (1992) 有 df/df(-2)。否則 Gelman & Rubin (1992) 和 Brooks & Gelman (1998) 有等價的方程(符號略有不同,一些術語的排列方式不同)。BDA2 (Gelman, et al., 2003) 不再有術語. BDA3 (Gelman et al., 2003) 和 Stan 引入了分裂鏈版本。

我對論文的解釋和使用不同版本的經驗是那些最終被丟棄的條款可以被忽略,當很大,即使當不是。我還依稀記得幾年前和 Andrew Gelman 討論過這個問題,但如果你想確定歷史,你應該問他。

通常 M 不會太大,通常可以低至 2

我真的希望這種情況不會經常發生。如果您想使用拆分-收斂診斷,您應該使用至少 4 個鏈拆分,因此 M=8。如果您已經知道在您的特定情況下收斂和混合速度很快,您可以使用更少的鏈。

附加參考:

  • 布魯克斯和格爾曼 (1998)。計算和圖形統計雜誌,7(4)434-455。

引用自:https://stats.stackexchange.com/questions/348984

comments powered by Disqus