Correlation
是什麼導致 MCMC 採樣器中的自相關?
運行貝葉斯分析時,要檢查的一件事是 MCMC 樣本的自相關。但我不明白是什麼導致了這種自相關。
在這裡,他們說
[來自 MCMC] 的高自相關樣本通常是由變量之間的強相關性引起的。
- 我想知道 MCMC 中高自相關樣本的其他原因是什麼。
- 在 JAGS 輸出中觀察到自相關時是否有要檢查的事項列表?
- 我們如何在貝葉斯分析中管理自相關?我知道有些人說瘦,但其他人說這很糟糕。運行模型更長的時間是另一種解決方案,不幸的是時間成本很高,並且在某些情況下仍然會影響 MCMC 中樣本的跟踪。為什麼某些算法在探索和不相關方面更有效?我們應該改變鏈的初始值嗎?
在貝葉斯分析中使用馬爾可夫鏈蒙特卡羅 (MCMC) 算法時,目標通常是從後驗分佈中進行採樣。當其他獨立抽樣技術不可行時(如拒絕抽樣),我們會求助於 MCMC。然而,MCMC 的問題是生成的樣本是相關的。這是因為每個後續樣本都是使用當前樣本繪製的。
有兩種主要的 MCMC 採樣方法:Gibbs 採樣和 Metropolis-Hastings (MH) 算法。
- 樣本中的自相關受到很多因素的影響。例如,在使用 MH 算法時,在一定程度上可以通過調整提案分佈的步長來減少或增加自相關。然而,在吉布斯抽樣中,不可能進行這樣的調整。自相關也受馬爾可夫鏈起始值的影響。通常有一個(未知的)最佳起始值會導致相對較小的自相關。目標分佈的多模態也會極大地影響樣本的自相關。因此,目標分佈的某些屬性可以肯定地決定自相關。但大多數情況下,自相關是由使用的採樣器決定的。一般來說,如果 MCMC 採樣器在狀態空間中跳躍更多,它可能會有更小的自相關。
- 我對 JAGS 不熟悉。
- 如果您已經決定了採樣器,並且沒有選擇與其他採樣器一起玩的選項,那麼最好的選擇是進行一些初步分析以找到好的起始值和步長。通常不建議進行細化,因為有人認為丟棄樣本的效率低於使用相關樣本的效率。一個通用的解決方案是長時間運行採樣器,使您的有效樣本量 (ESS) 很大。看看這裡
R
的包裝。如果您查看第 8 頁上的小插圖,作者建議計算其估計過程所需的最小有效樣本。你可以為你的問題找到那個數字,然後讓馬爾可夫鏈運行,直到你有那麼多有效樣本。mcmcse