貝葉斯定理的測度理論公式
我試圖找到貝葉斯定理的測度理論公式,當用於統計推斷時,貝葉斯定理通常定義為:
p(θ|x)=p(x|θ)⋅p(θ)p(x)
在哪裡:
- p(θ|x) :參數的後驗密度。
- p(x|θ) :統計模型(或可能性)。
- p(θ) :參數的先驗密度。
- p(x) :證據。
現在我們如何以測度論的方式定義貝葉斯定理?
所以,我首先定義了一個概率空間:
$$ \left(\Theta, \mathcal{F}\Theta, \mathbb{P}\Theta\right) $$
這樣 θ∈Θ .
然後我定義了另一個概率空間:
(X,FX,PX)
這樣 x∈X .
從現在開始我不知道該怎麼做,聯合概率空間將是:
(Θ×X,FΘ⊗FX,?)
但我不知道應該採取什麼措施。
貝葉斯定理應該寫成如下:
?=?⋅PΘPX
在哪裡:
$$ \mathbb{P}X = \int{\theta \in \Theta} ? \space \mathrm{d}\mathbb{P}_\Theta $$
但正如您所看到的,我不知道其他度量以及它們所在的概率空間。
我偶然發現了這個線程,但它沒有什麼幫助,我不知道貝葉斯規則的以下測量理論概括是如何達到的:
PΘ|y(A)=∫x∈AdPΩ|xdPΩ(y)dPΘ
我正在自學測量理論概率並且缺乏指導,所以請原諒我的無知。
貝葉斯定理的一個精確表述如下,逐字取自Schervish 的統計理論(1995)。
條件分佈 Θ 給定 X=x 稱為後驗分佈 Θ . 下一個定理向我們展示了在有測度的情況下如何計算參數的後驗分佈 ν 使得每個 Pθ≪ν .
定理 1.31(貝葉斯定理)。 假設 X 有一個參數族 $ \mathcal{P}0 具有參數空間的分佈 \Omega .假設 P\theta \ll \nu 對所有人 \theta \in \Omega ,然後讓 f_{X\mid\Theta}(x\mid\theta) 是條件密度(關於 \nu )的 X 給定 \Theta = \theta .讓 \mu_\Theta 是的先驗分佈 \Theta .讓 \mu_{\Theta\mid X}(\cdot \mid x) 表示條件分佈 \Theta 給定 X = x .然後 \mu_{\Theta\mid X} \ll \mu_\Theta ,就邊際而言 X ,Radon−Nikodym導數是dμΘ∣XdμΘ(θ∣x)=fX∣Θ(x∣θ)∫ΩfX∣Θ(x∣t),dμΘ(t)對於那些 x 這樣分母既不是 0 也不是無限的。集合的先驗預測概率 x 值使得分母是 0 或無限是 0 ,因此後驗可以任意定義 x $ 價值觀。
編輯 1. 這個定理的設置如下:
- 有一些潛在的概率空間 (S,S,Pr) 計算所有概率的依據。
- 有一個標準 Borel 空間 (X,B) (樣本空間)和可測量的地圖 X:S→X (樣本或數據)。
- 有一個標準 Borel 空間 (Ω,τ) (參數空間)和可測量的地圖 Θ:S→Ω (參數)。
- 的分佈 Θ 是 μΘ (事先分配);這是關於的概率度量 (Ω,τ) 由 μΘ(A)=Pr(Θ∈A) 對所有人 A∈τ .
- 的分佈 X 是 μX (定理中提到的*邊際分佈);*這是關於的概率度量 (X,B) 由 μX(B)=Pr(X∈B) 對所有人 B∈B .
- 有一個概率核 P:Ω×B→[0,1] , 表示 (θ,B)↦Pθ(B) 表示條件分佈 X 給定 Θ . 這意味著
- 對於每個 B∈B , 地圖 θ↦Pθ(B) 從 Ω 進入 [0,1] 是可測量的,
- Pθ 是一個概率測度 (X,B) 對於每個 θ∈Ω , 和
- 對所有人 A∈τ 和 B∈B , Pr(Θ∈A,X∈B)=∫APθ(B),dμΘ(θ).
這是分佈的參數族 X 給定 Θ .
- 我們假設存在一個度量 ν 在 (X,B) 這樣 Pθ≪ν 對所有人 θ∈Ω ,我們選擇一個版本 fX∣Θ(⋅∣θ) Radon-Nikodym 導數的 dPθ/dν (嚴格來說,這個 Radon-Nikodym 導數的保證存在可能需要 ν 成為 σ -有限)。這意味著 Pθ(B)=∫BfX∣Θ(x∣θ),dν(x)
對所有人 B∈B . 它遵循 Pr(Θ∈A,X∈B)=∫A∫BfX∣Θ(x∣θ),dν(x),dμΘ(θ)對所有人 A∈τ 和 B∈B . 我們可以不失一般性假設(例如,參見 Schervish 書中第 1 章中的練習 9),地圖 (x,θ)↦fX∣Θ(x∣θ) 的 X×Ω 進入 [0,∞] 是可測量的。然後通過 Tonelli 定理我們可以改變積分的順序: Pr(Θ∈A,X∈B)=∫B∫AfX∣Θ(x∣θ),dμΘ(θ),dν(x)對所有人 A∈τ 和 B∈B . 特別是,集合的邊際概率 B∈B 是 μX(B)=Pr(X∈B)=∫B∫ΩfX∣Θ(x∣θ),dμΘ(θ),dν(x),這表明 μX≪ν , 與 Radon-Nikodym 導數 dμXdν=∫ΩfX∣Θ(x∣θ),dμΘ(θ).- 存在概率核 μΘ∣X:X×τ→[0,1] , 表示 (x,A)↦μΘ∣X(A∣x) ,它表示的條件分佈 Θ 給定 X (即後驗分佈)。這意味著
- 對於每個 A∈τ , 地圖 x↦μΘ∣X(A∣x) 從 X 進入 [0,1] 是可測量的,
- μΘ∣X(⋅∣x) 是一個概率測度 (Ω,τ) 對於每個 x∈X , 和
- 對所有人 A∈τ 和 B∈B , Pr(Θ∈A,X∈B)=∫BμΘ∣X(A∣x),dμX(x)
編輯 2. 鑑於上述設置,貝葉斯定理的證明相對簡單。
證明。 跟隨 Schervish,讓 C_0 = \left{x \in \mathcal{X} : \int_\Omega f_{X \mid \Theta}(x \mid t) , d\mu_\Theta(t) = 0\right}
和 C_\infty = \left{x \in \mathcal{X} : \int_\Omega f_{X \mid \Theta}(x \mid t) , d\mu_\Theta(t) = \infty\right}(這些是潛在問題的集合 x 右邊的分母的值)。我們有 μX(C0)=Pr(X∈C0)=∫C0∫ΩfX∣Θ(x∣t),dμΘ(t),dν(x)=0,和 μX(C∞)=∫C∞∫ΩfX∣Θ(x∣t),dμΘ(t),dν(x)={∞,if ν(C∞)>0, 0,if ν(C∞)=0.自從 μX(C∞)=∞ 是不可能的 ( μX 是概率測度),因此 ν(C∞)=0 , 從何而來 μX(C∞)=0 也是。因此, μX(C0∪C∞)=0 , 所以所有的集合 x∈X 使得右邊的分母為零或無窮大的邊際概率為零。接下來,考慮一下,如果 A∈τ 和 B∈B , 然後 Pr(Θ∈A,X∈B)=∫B∫AfX∣Θ(x∣θ),dμΘ(θ),dν(x)
並且同時 Pr(Θ∈A,X∈B)=∫BμΘ∣X(A∣x),dμX(x) =∫B(μΘ∣X(A∣x)∫ΩfX∣Θ(x∣t),dμΘ(t)),dν(x).它遵循 μΘ∣X(A∣x)∫ΩfX∣Θ(x∣t),dμΘ(t)=∫AfX∣Θ(x∣θ),dμΘ(θ)對所有人 A∈τ 和 ν -ae x∈X , 因此 μΘ∣X(A∣x)=∫AfX∣Θ(x∣θ)∫ΩfX∣Θ(x∣t),dμΘ(t),dμΘ(θ)對所有人 A∈τ 和 μX -ae x∈X . 因此,對於 μX -ae x∈X , μΘ∣X(⋅∣x)≪μΘ , Radon-Nikodym 導數是 dμΘ∣XdμΘ(θ∣x)=fX∣Θ(x∣θ)∫ΩfX∣Θ(x∣t),dμΘ(t),如所聲稱的,完成證明。
最後,我們如何協調在統計/機器學習文獻中如此普遍的貝葉斯定理的口語版本,即, p(θ∣x)=p(θ)p(x∣θ)p(x),
with ?On the one hand, the left-hand-side of is supposed to represent a density of the conditional distribution of Θ given X with respect to some unspecified dominating measure on the parameter space. In fact, none of the dominating measures for the four different densities in (all named p ) are explicitly mentioned.
On the other hand, the left-hand-side of is the density of the conditional distribution of Θ given X with respect to the prior distribution.
If, in addition, the prior distribution μΘ has a density fΘ with respect to some (let’s say σ -finite) measure λ on the parameter space Ω , then μΘ∣X(⋅∣x) is also absolutely continuous with respect to λ for μX -a.e. x∈X , and if fΘ∣X represents a version of the Radon-Nikodym derivative dμΘ∣X/dλ , then yields fΘ∣X(θ∣x)=dμΘ∣Xdλ(θ∣x) =dμΘ∣XdμΘ(θ∣x)dμΘdλ(θ) =dμΘ∣XdμΘ(θ∣x)fΘ(θ) =fΘ(θ)fX∣Θ(x∣θ)∫ΩfX∣Θ(x∣t),dμΘ(t) =fΘ(θ)fX∣Θ(x∣θ)∫ΩfΘ(t)fX∣Θ(x∣t),dλ(t).
The translation between this new form and is p(θ∣x)=fΘ∣X(θ∣x)=dμΘ∣Xdλ(θ∣x),(posterior) p(θ)=fΘ(θ)=dμΘdλ(θ),(prior) p(x∣θ)=fX∣Θ(x∣θ)=dPθdν(x),(likelihood) p(x)=∫ΩfΘ(t)fX∣Θ(x∣t),dλ(t).(evidence)