Probability

貝葉斯定理的測度理論公式

  • January 9, 2020

我試圖找到貝葉斯定理的測度理論公式,當用於統計推斷時,貝葉斯定理通常定義為:

$$ p\left(\theta|x\right) = \frac{p\left(x|\theta\right) \cdot p\left(\theta\right)}{p\left(x\right)} $$

在哪裡:

  • $ p\left(\theta|x\right) $ :參數的後驗密度
  • $ p\left(x|\theta\right) $ :統計模型(或可能性)。
  • $ p\left(\theta\right) $ :參數的先驗密度
  • $ p\left(x\right) $ :證據

現在我們如何以測度論的方式定義貝葉斯定理?

所以,我首先定義了一個概率空間:

$$ \left(\Theta, \mathcal{F}\Theta, \mathbb{P}\Theta\right) $$

這樣 $ \theta \in \Theta $ .

然後我定義了另一個概率空間:

$$ \left(X, \mathcal{F}_X, \mathbb{P}_X\right) $$

這樣 $ x \in X $ .

從現在開始我不知道該怎麼做,聯合概率空間將是:

$$ \left(\Theta \times X, \mathcal{F}_\Theta \otimes \mathcal{F}_X, ?\right) $$

但我不知道應該採取什麼措施。

貝葉斯定理應該寫成如下:

$$ ? = \frac{? \cdot \mathbb{P}_\Theta}{\mathbb{P}_X} $$

在哪裡:

$$ \mathbb{P}X = \int{\theta \in \Theta} ? \space \mathrm{d}\mathbb{P}_\Theta $$

但正如您所看到的,我不知道其他度量以及它們所在的概率空間。

我偶然發現了這個線程,但它沒有什麼幫助,我不知道貝葉斯規則的以下測量理論概括是如何達到的:

$$ {P_{\Theta |y}}(A) = \int\limits_{x \in A} {\frac{{\mathrm d{P_{\Omega |x}}}}{{\mathrm d{P_\Omega }}}(y)\mathrm d{P_\Theta }} $$

我正在自學測量理論概率並且缺乏指導,所以請原諒我的無知。

貝葉斯定理的一個精確表述如下,逐字取自Schervish 的統計理論(1995)

條件分佈 $ \Theta $ 給定 $ X=x $ 稱為後驗分佈 $ \Theta $ . 下一個定理向我們展示了在有測度的情況下如何計算參數的後驗分佈 $ \nu $ 使得每個 $ P_\theta \ll \nu $ .

定理 1.31(貝葉斯定理)。 假設 $ X $ 有一個參數族 $ \mathcal{P}0 $ 具有參數空間的分佈 $ \Omega $ . 假設 $ P\theta \ll \nu $ 對所有人 $ \theta \in \Omega $ , 然後讓 $ f_{X\mid\Theta}(x\mid\theta) $ 是條件密度(關於 $ \nu $ ) 的 $ X $ 給定 $ \Theta = \theta $ . 讓 $ \mu_\Theta $ 是的先驗分佈 $ \Theta $ . 讓 $ \mu_{\Theta\mid X}(\cdot \mid x) $ 表示條件分佈 $ \Theta $ 給定 $ X = x $ . 然後 $ \mu_{\Theta\mid X} \ll \mu_\Theta $ , 就邊際而言 $ X $ , Radon-Nikodym 導數是 $$ \tag{1} \label{1} \frac{d\mu_{\Theta\mid X}}{d\mu_\Theta}(\theta \mid x) = \frac{f_{X\mid \Theta}(x\mid \theta)}{\int_\Omega f_{X\mid\Theta}(x\mid t) , d\mu_\Theta(t)} $$ 對於那些 $ x $ 這樣分母既不是 $ 0 $ 也不是無限的。集合的先驗預測概率 $ x $ 值使得分母是 $ 0 $ 或無限是 $ 0 $ ,因此後驗可以任意定義 $ x $ 價值觀。


編輯 1. 這個定理的設置如下:

  1. 有一些潛在的概率空間 $ (S, \mathcal{S}, \Pr) $ 計算所有概率的依據。
  2. 有一個標準 Borel 空間 $ (\mathcal{X}, \mathcal{B}) $ (樣本空間)和可測量的地圖 $ X : S \to \mathcal{X} $ (樣本數據)。
  3. 有一個標準 Borel 空間 $ (\Omega, \tau) $ (參數空間)和可測量的地圖 $ \Theta : S \to \Omega $ (參數)。
  4. 的分佈 $ \Theta $ 是 $ \mu_\Theta $ (事先分配);這是關於的概率度量 $ (\Omega, \tau) $ 由 $ \mu_\Theta(A) = \Pr(\Theta \in A) $ 對所有人 $ A \in \tau $ .
  5. 的分佈 $ X $ 是 $ \mu_X $ (定理中提到的*邊際分佈);*這是關於的概率度量 $ (\mathcal{X}, \mathcal{B}) $ 由 $ \mu_X(B) = \Pr(X \in B) $ 對所有人 $ B \in \mathcal{B} $ .
  6. 有一個概率核 $ P : \Omega \times \mathcal{B} \to [0, 1] $ , 表示 $ (\theta, B) \mapsto P_\theta(B) $ 表示條件分佈 $ X $ 給定 $ \Theta $ . 這意味著
  • 對於每個 $ B \in \mathcal{B} $ , 地圖 $ \theta \mapsto P_\theta(B) $ 從 $ \Omega $ 進入 $ [0, 1] $ 是可測量的,
  • $ P_\theta $ 是一個概率測度 $ (\mathcal{X}, \mathcal{B}) $ 對於每個 $ \theta \in \Omega $ , 和
  • 對所有人 $ A \in \tau $ 和 $ B \in \mathcal{B} $ , $$ \Pr(\Theta \in A, X \in B) = \int_A P_\theta(B) , d\mu_\Theta(\theta). $$這是分佈的參數族 $ X $ 給定 $ \Theta $ .
  1. 我們假設存在一個度量 $ \nu $ 在 $ (\mathcal{X}, \mathcal{B}) $ 這樣 $ P_\theta \ll \nu $ 對所有人 $ \theta \in \Omega $ ,我們選擇一個版本 $ f_{X\mid\Theta}(\cdot\mid\theta) $ Radon-Nikodym 導數的 $ d P_\theta / d \nu $ (嚴格來說,這個 Radon-Nikodym 導數的保證存在可能需要 $ \nu $ 成為 $ \sigma $ -有限)。這意味著 $$ P_\theta(B) = \int_B f_{X\mid\Theta}(x \mid \theta) , d\nu(x) $$ 對所有人 $ B \in \mathcal{B} $ . 它遵循 $$ \Pr(\Theta \in A, X \in B) = \int_A \int_B f_{X \mid \Theta}(x \mid \theta) , d\nu(x) , d\mu_\Theta(\theta) $$ 對所有人 $ A \in \tau $ 和 $ B \in \mathcal{B} $ . 我們可以不失一般性假設(例如,參見 Schervish 書中第 1 章中的練習 9),地圖 $ (x, \theta) \mapsto f_{X\mid \Theta}(x\mid\theta) $ 的 $ \mathcal{X}\times\Omega $ 進入 $ [0, \infty] $ 是可測量的。然後通過 Tonelli 定理我們可以改變積分的順序: $$ \Pr(\Theta \in A, X \in B) = \int_B \int_A f_{X \mid \Theta}(x \mid \theta) , d\mu_\Theta(\theta) , d\nu(x) $$ 對所有人 $ A \in \tau $ 和 $ B \in \mathcal{B} $ . 特別是,集合的邊際概率 $ B \in \mathcal{B} $ 是 $$ \mu_X(B) = \Pr(X \in B) = \int_B \int_\Omega f_{X \mid \Theta}(x \mid \theta) , d\mu_\Theta(\theta) , d\nu(x), $$ 這表明 $ \mu_X \ll \nu $ , 與 Radon-Nikodym 導數 $$ \frac{d\mu_X}{d\nu} = \int_\Omega f_{X \mid \Theta}(x \mid \theta) , d\mu_\Theta(\theta). $$
  2. 存在概率核 $ \mu_{\Theta \mid X} : \mathcal{X} \times \tau \to [0, 1] $ , 表示 $ (x, A) \mapsto \mu_{\Theta \mid X}(A \mid x) $ ,它表示的條件分佈 $ \Theta $ 給定 $ X $ (即後驗分佈)。這意味著
  • 對於每個 $ A \in \tau $ , 地圖 $ x \mapsto \mu_{\Theta \mid X}(A \mid x) $ 從 $ \mathcal{X} $ 進入 $ [0, 1] $ 是可測量的,
  • $ \mu_{\Theta \mid X}(\cdot \mid x) $ 是一個概率測度 $ (\Omega, \tau) $ 對於每個 $ x \in \mathcal{X} $ , 和
  • 對所有人 $ A \in \tau $ 和 $ B \in \mathcal{B} $ , $$ \Pr(\Theta \in A, X \in B) = \int_B \mu_{\Theta \mid X}(A \mid x) , d\mu_X(x) $$

編輯 2. 鑑於上述設置,貝葉斯定理的證明相對簡單。

證明。 跟隨 Schervish,讓 $$ C_0 = \left{x \in \mathcal{X} : \int_\Omega f_{X \mid \Theta}(x \mid t) , d\mu_\Theta(t) = 0\right} $$ 和 $$ C_\infty = \left{x \in \mathcal{X} : \int_\Omega f_{X \mid \Theta}(x \mid t) , d\mu_\Theta(t) = \infty\right} $$ (這些是潛在問題的集合 $ x $ 右邊的分母的值)。我們有 $$ \mu_X(C_0) = \Pr(X \in C_0) = \int_{C_0} \int_\Omega f_{X \mid \Theta}(x \mid t) , d\mu_\Theta(t) , d\nu(x) = 0, $$ 和 $$ \mu_X(C_\infty) = \int_{C_\infty} \int_\Omega f_{X \mid \Theta}(x \mid t) , d\mu_\Theta(t) , d\nu(x) = \begin{cases} \infty, & \text{if $\nu(C_\infty) > 0$,} \ 0, & \text{if $\nu(C_\infty) = 0$.} \end{cases} $$ 自從 $ \mu_X(C_\infty) = \infty $ 是不可能的 ( $ \mu_X $ 是概率測度),因此 $ \nu(C_\infty) = 0 $ , 從何而來 $ \mu_X(C_\infty) = 0 $ 也是。因此, $ \mu_X(C_0 \cup C_\infty) = 0 $ , 所以所有的集合 $ x \in \mathcal{X} $ 使得右邊的分母為零或無窮大的邊際概率為零。

接下來,考慮一下,如果 $ A \in \tau $ 和 $ B \in \mathcal{B} $ , 然後 $$ \Pr(\Theta \in A, X \in B) = \int_B \int_A f_{X \mid \Theta}(x \mid \theta) , d\mu_\Theta(\theta) , d\nu(x) $$ 並且同時 $$ \begin{aligned} \Pr(\Theta \in A, X \in B) &= \int_B \mu_{\Theta \mid X}(A \mid x) , d\mu_X(x) \ &= \int_B \left( \mu_{\Theta \mid X}(A \mid x) \int_\Omega f_{X \mid \Theta}(x \mid t) , d\mu_\Theta(t) \right) , d\nu(x). \end{aligned} $$ 它遵循 $$ \mu_{\Theta \mid X}(A \mid x) \int_\Omega f_{X \mid \Theta}(x \mid t) , d\mu_\Theta(t) = \int_A f_{X \mid \Theta}(x \mid \theta) , d\mu_\Theta(\theta) $$ 對所有人 $ A \in \tau $ 和 $ \nu $ -ae $ x \in \mathcal{X} $ , 因此 $$ \mu_{\Theta \mid X}(A \mid x) = \int_A \frac{f_{X \mid \Theta}(x \mid \theta)}{\int_\Omega f_{X \mid \Theta}(x \mid t) , d\mu_\Theta(t)} , d\mu_\Theta(\theta) $$ 對所有人 $ A \in \tau $ 和 $ \mu_X $ -ae $ x \in \mathcal{X} $ . 因此,對於 $ \mu_X $ -ae $ x \in \mathcal{X} $ , $ \mu_{\Theta\mid X}(\cdot \mid x) \ll \mu_\Theta $ , Radon-Nikodym 導數是 $$ \frac{d\mu_{\Theta \mid X}}{d \mu_\Theta}(\theta \mid x) = \frac{f_{X \mid \Theta}(x \mid \theta)}{\int_\Omega f_{X \mid \Theta}(x \mid t) , d\mu_\Theta(t)}, $$ 如所聲稱的,完成證明。


最後,我們如何協調在統計/機器學習文獻中如此普遍的貝葉斯定理的口語版本,即, $$ \tag{2} \label{2} p(\theta \mid x) = \frac{p(\theta) p(x \mid \theta)}{p(x)}, $$ with ?

On the one hand, the left-hand-side of is supposed to represent a density of the conditional distribution of $ \Theta $ given $ X $ with respect to some unspecified dominating measure on the parameter space. In fact, none of the dominating measures for the four different densities in (all named $ p $ ) are explicitly mentioned.

On the other hand, the left-hand-side of is the density of the conditional distribution of $ \Theta $ given $ X $ with respect to the prior distribution.

If, in addition, the prior distribution $ \mu_\Theta $ has a density $ f_\Theta $ with respect to some (let’s say $ \sigma $ -finite) measure $ \lambda $ on the parameter space $ \Omega $ , then $ \mu_{\Theta \mid X}(\cdot\mid x) $ is also absolutely continuous with respect to $ \lambda $ for $ \mu_X $ -a.e. $ x \in \mathcal{X} $ , and if $ f_{\Theta \mid X} $ represents a version of the Radon-Nikodym derivative $ d\mu_{\Theta\mid X}/d\lambda $ , then yields $$ \begin{aligned} f_{\Theta \mid X}(\theta \mid x) &= \frac{d \mu_{\Theta \mid X}}{d\lambda}(\theta \mid x) \ &= \frac{d \mu_{\Theta \mid X}}{d\mu_\Theta}(\theta \mid x) \frac{d \mu_{\Theta}}{d\lambda}(\theta) \ &= \frac{d \mu_{\Theta \mid X}}{d\mu_\Theta}(\theta \mid x) f_\Theta(\theta) \ &= \frac{f_\Theta(\theta) f_{X\mid \Theta}(x\mid \theta)}{\int_\Omega f_{X\mid\Theta}(x\mid t) , d\mu_\Theta(t)} \ &= \frac{f_\Theta(\theta) f_{X\mid \Theta}(x\mid \theta)}{\int_\Omega f_\Theta(t) f_{X\mid\Theta}(x\mid t) , d\lambda(t)}. \end{aligned} $$ The translation between this new form and is $$ \begin{aligned} p(\theta \mid x) &= f_{\Theta \mid X}(\theta \mid x) = \frac{d \mu_{\Theta \mid X}}{d\lambda}(\theta \mid x), &&\text{(posterior)}\ p(\theta) &= f_\Theta(\theta) = \frac{d \mu_\Theta}{d\lambda}(\theta), &&\text{(prior)} \ p(x \mid \theta) &= f_{X\mid\Theta}(x\mid\theta) = \frac{d P_\theta}{d\nu}(x), &&\text{(likelihood)} \ p(x) &= \int_\Omega f_\Theta(t) f_{X\mid\Theta}(x\mid t) , d\lambda(t). &&\text{(evidence)} \end{aligned} $$

引用自:https://stats.stackexchange.com/questions/444080

comments powered by Disqus