Bayesian
在貝葉斯推理中,為什麼有些術語會從後驗預測中刪除?
在凱文墨菲對高斯分佈的共軛貝葉斯分析中,他寫道,後驗預測分佈是
p(x∣D)=∫p(x∣θ)p(θ∣D)dθ
在哪裡 D 是擬合模型的數據,並且 x 是看不見的數據。我不明白的是為什麼依賴 D 在積分的第一項中消失。使用概率的基本規則,我會期望:
p(a)=∫p(a∣c)p(c)dc p(a∣b)=∫p(a∣c,b)p(c∣b)dc ↓ p(x∣D)=∫⋆⏞p(x∣θ,D)p(θ∣D)dθ
**問:**為什麼會依賴 D 術語 ⋆ 消失?
對於它的價值,我在其他地方看到過這種公式(在條件中刪除變量)。例如,在 Ryan Adam 的Bayesian Online Changepoint Detection中,他將後驗預測寫為
p(xt+1∣rt)=∫p(xt+1∣θ)p(θ∣rt,xt)dθ
又在哪裡,因為 D=xt,rt , 我本來期望的
p(xt+1∣xt,rt)=∫p(xt+1∣θ,xt,rt)p(θ∣rt,xt)dθ
這是基於以下假設 x 有條件地獨立於 D , 給定 θ . 在許多情況下這是一個合理的假設,因為它所說的只是訓練和測試數據( D 和 x , 分別) 是從同一組未知參數獨立生成的 θ . 鑑於這種獨立性假設, p(x|θ,D)=p(x|θ) ,所以 D 脫離了您所期望的更一般的形式。
在您的第二個示例中,似乎正在應用類似的獨立性假設,但現在(明確地)跨越時間。這些假設可能會在文本的其他地方明確說明,或者對於足夠熟悉問題上下文的任何人來說,它們可能是隱含的(儘管這並不一定意味著在您的特定示例中 - 我不熟悉- 作者認為這種熟悉是正確的)。