Probability

貝葉斯定理的測度理論公式

  • January 9, 2020

我試圖找到貝葉斯定理的測度理論公式,當用於統計推斷時,貝葉斯定理通常定義為:

p(θ|x)=p(x|θ)p(θ)p(x)

在哪裡:

  • p(θ|x) :參數的後驗密度
  • p(x|θ)統計模型(或可能性)。
  • p(θ) :參數的先驗密度
  • p(x) :證據

現在我們如何以測度論的方式定義貝葉斯定理?

所以,我首先定義了一個概率空間:

$$ \left(\Theta, \mathcal{F}\Theta, \mathbb{P}\Theta\right) $$

這樣 θΘ .

然後我定義了另一個概率空間:

(X,FX,PX)

這樣 xX .

從現在開始我不知道該怎麼做,聯合概率空間將是:

(Θ×X,FΘFX,?)

但我不知道應該採取什麼措施。

貝葉斯定理應該寫成如下:

?=?PΘPX

在哪裡:

$$ \mathbb{P}X = \int{\theta \in \Theta} ? \space \mathrm{d}\mathbb{P}_\Theta $$

但正如您所看到的,我不知道其他度量以及它們所在的概率空間。

我偶然發現了這個線程,但它沒有什麼幫助,我不知道貝葉斯規則的以下測量理論概括是如何達到的:

PΘ|y(A)=xAdPΩ|xdPΩ(y)dPΘ

我正在自學測量理論概率並且缺乏指導,所以請原諒我的無知。

貝葉斯定理的一個精確表述如下,逐字取自Schervish 的統計理論(1995)

條件分佈 Θ 給定 X=x 稱為後驗分佈 Θ . 下一個定理向我們展示了在有測度的情況下如何計算參數的後驗分佈 ν 使得每個 Pθν .

定理 1.31(貝葉斯定理)。 假設 X 有一個參數族 $ \mathcal{P}0 \Omega . P\theta \ll \nu \theta \in \Omega f_{X\mid\Theta}(x\mid\theta) \nu X \Theta = \theta . \mu_\Theta \Theta . \mu_{\Theta\mid X}(\cdot \mid x) \Theta X = x . \mu_{\Theta\mid X} \ll \mu_\Theta , X ,RadonNikodymdμΘXdμΘ(θx)=fXΘ(xθ)ΩfXΘ(xt),dμΘ(t) x 0 x 使 0 0 x $ 價值觀。


編輯 1. 這個定理的設置如下:

  1. 有一些潛在的概率空間 (S,S,Pr) 計算所有概率的依據。
  2. 有一個標準 Borel 空間 (X,B)樣本空間)和可測量的地圖 X:SX樣本數據)。
  3. 有一個標準 Borel 空間 (Ω,τ)參數空間)和可測量的地圖 Θ:SΩ參數)。
  4. 的分佈 ΘμΘ事先分配);這是關於的概率度量 (Ω,τ)μΘ(A)=Pr(ΘA) 對所有人 Aτ .
  5. 的分佈 XμX (定理中提到的*邊際分佈);*這是關於的概率度量 (X,B)μX(B)=Pr(XB) 對所有人 BB .
  6. 有一個概率核 P:Ω×B[0,1] , 表示 (θ,B)Pθ(B) 表示條件分佈 X 給定 Θ . 這意味著
  • 對於每個 BB , 地圖 θPθ(B)Ω 進入 [0,1] 是可測量的,
  • Pθ 是一個概率測度 (X,B) 對於每個 θΩ , 和
  • 對所有人 AτBB , Pr(ΘA,XB)=APθ(B),dμΘ(θ).
    這是分佈的參數族 X 給定 Θ .
  1. 我們假設存在一個度量 ν(X,B) 這樣 Pθν 對所有人 θΩ ,我們選擇一個版本 fXΘ(θ) Radon-Nikodym 導數的 dPθ/dν (嚴格來說,這個 Radon-Nikodym 導數的保證存在可能需要 ν 成為 σ -有限)。這意味著 Pθ(B)=BfXΘ(xθ),dν(x)
    對所有人 BB . 它遵循 Pr(ΘA,XB)=ABfXΘ(xθ),dν(x),dμΘ(θ)
    對所有人 AτBB . 我們可以不失一般性假設(例如,參見 Schervish 書中第 1 章中的練習 9),地圖 (x,θ)fXΘ(xθ)X×Ω 進入 [0,] 是可測量的。然後通過 Tonelli 定理我們可以改變積分的順序: Pr(ΘA,XB)=BAfXΘ(xθ),dμΘ(θ),dν(x)
    對所有人 AτBB . 特別是,集合的邊際概率 BBμX(B)=Pr(XB)=BΩfXΘ(xθ),dμΘ(θ),dν(x),
    這表明 μXν , 與 Radon-Nikodym 導數 dμXdν=ΩfXΘ(xθ),dμΘ(θ).
  2. 存在概率核 μΘX:X×τ[0,1] , 表示 (x,A)μΘX(Ax) ,它表示的條件分佈 Θ 給定 X (即後驗分佈)。這意味著
  • 對於每個 Aτ , 地圖 xμΘX(Ax)X 進入 [0,1] 是可測量的,
  • μΘX(x) 是一個概率測度 (Ω,τ) 對於每個 xX , 和
  • 對所有人 AτBB , Pr(ΘA,XB)=BμΘX(Ax),dμX(x)

編輯 2. 鑑於上述設置,貝葉斯定理的證明相對簡單。

證明。 跟隨 Schervish,讓 C_0 = \left{x \in \mathcal{X} : \int_\Omega f_{X \mid \Theta}(x \mid t) , d\mu_\Theta(t) = 0\right}

C_\infty = \left{x \in \mathcal{X} : \int_\Omega f_{X \mid \Theta}(x \mid t) , d\mu_\Theta(t) = \infty\right}
(這些是潛在問題的集合 x 右邊的分母的值)。我們有 μX(C0)=Pr(XC0)=C0ΩfXΘ(xt),dμΘ(t),dν(x)=0,
μX(C)=CΩfXΘ(xt),dμΘ(t),dν(x)={,if ν(C)>0, 0,if ν(C)=0.
自從 μX(C)= 是不可能的 ( μX 是概率測度),因此 ν(C)=0 , 從何而來 μX(C)=0 也是。因此, μX(C0C)=0 , 所以所有的集合 xX 使得右邊的分母為零或無窮大的邊際概率為零。

接下來,考慮一下,如果 AτBB , 然後 Pr(ΘA,XB)=BAfXΘ(xθ),dμΘ(θ),dν(x)

並且同時 Pr(ΘA,XB)=BμΘX(Ax),dμX(x) =B(μΘX(Ax)ΩfXΘ(xt),dμΘ(t)),dν(x).
它遵循 μΘX(Ax)ΩfXΘ(xt),dμΘ(t)=AfXΘ(xθ),dμΘ(θ)
對所有人 Aτν -ae xX , 因此 μΘX(Ax)=AfXΘ(xθ)ΩfXΘ(xt),dμΘ(t),dμΘ(θ)
對所有人 AτμX -ae xX . 因此,對於 μX -ae xX , μΘX(x)μΘ , Radon-Nikodym 導數是 dμΘXdμΘ(θx)=fXΘ(xθ)ΩfXΘ(xt),dμΘ(t),
如所聲稱的,完成證明。


最後,我們如何協調在統計/機器學習文獻中如此普遍的貝葉斯定理的口語版本,即, p(θx)=p(θ)p(xθ)p(x),

with ?

On the one hand, the left-hand-side of is supposed to represent a density of the conditional distribution of Θ given X with respect to some unspecified dominating measure on the parameter space. In fact, none of the dominating measures for the four different densities in (all named p ) are explicitly mentioned.

On the other hand, the left-hand-side of is the density of the conditional distribution of Θ given X with respect to the prior distribution.

If, in addition, the prior distribution μΘ has a density fΘ with respect to some (let’s say σ -finite) measure λ on the parameter space Ω , then μΘX(x) is also absolutely continuous with respect to λ for μX -a.e. xX , and if fΘX represents a version of the Radon-Nikodym derivative dμΘX/dλ , then yields fΘX(θx)=dμΘXdλ(θx) =dμΘXdμΘ(θx)dμΘdλ(θ) =dμΘXdμΘ(θx)fΘ(θ) =fΘ(θ)fXΘ(xθ)ΩfXΘ(xt),dμΘ(t) =fΘ(θ)fXΘ(xθ)ΩfΘ(t)fXΘ(xt),dλ(t).

The translation between this new form and is p(θx)=fΘX(θx)=dμΘXdλ(θx),(posterior) p(θ)=fΘ(θ)=dμΘdλ(θ),(prior) p(xθ)=fXΘ(xθ)=dPθdν(x),(likelihood) p(x)=ΩfΘ(t)fXΘ(xt),dλ(t).(evidence)

引用自:https://stats.stackexchange.com/questions/444080