從貝葉斯概率的角度來看,為什麼 95% 置信區間不包含 95% 概率的真實參數?
從關於置信區間的維基百科頁面:
…如果置信區間是在重複(可能不同)實驗的許多單獨數據分析中構建的,則包含參數真實值的此類區間的比例將與置信水平相匹配…
並從同一頁面:
給定實際獲得的數據,置信區間並不預測參數的真實值具有處於置信區間內的特定概率。
如果我理解正確,那麼最後一個陳述是在考慮到概率論的常客解釋的情況下做出的。但是,**從貝葉斯概率的角度來看,為什麼 95% 置信區間不包含 95% 概率的真實參數?**如果不是,那麼以下推理有什麼問題?
如果我知道一個過程在 95% 的情況下會產生正確答案,那麼下一個答案正確的概率是 0.95(假設我沒有關於該過程的任何額外信息)。類似地,如果有人向我展示了一個由 95% 的時間包含真實參數的過程創建的置信區間,考慮到我所知道的,我是否應該說它包含 0.95 概率的真實參數?
這個問題與為什麼 95% CI 並不意味著 95% 的機會包含均值?這個問題的答案一直集中在為什麼 95% CI 並不意味著從頻率論者的角度來看有 95% 的機會包含平均值。我的問題是一樣的,但從貝葉斯概率的角度來看。
更新:在幾年後的事後看來,我對基本相同的材料進行了更簡潔的處理,以回答類似的問題。
如何構建置信區域
讓我們從構建置信區域的一般方法開始。它可以應用於單個參數,以產生置信區間或一組區間;它可以應用於兩個或多個參數,以產生更高維度的置信區域。
我們斷言觀察到的統計數據 $ D $ 源自帶有參數的分佈 $ \theta $ ,即抽樣分佈 $ s(d|\theta) $ 超過可能的統計數據 $ d $ ,並為 $ \theta $ 在可能值的集合中 $ \Theta $ . 定義最高密度區域 (HDR): $ h $ -PDF 的 HDR 是其域中支持概率的最小子集 $ h $ . 表示 $ h $ -HDR 的 $ s(d|\psi) $ 作為 $ H_\psi $ , 對於任何 $ \psi \in \Theta $ . 然後, $ h $ 置信域 $ \theta $ , 給定數據 $ D $ , 是集合 $ C_D = { \phi : D \in H_\phi } $ . 的典型值 $ h $ 將是 0.95。
頻率論的解釋
從前面的置信區域定義如下 $$ d \in H_\psi \longleftrightarrow \psi \in C_d $$ 和 $ C_d = { \phi : d \in H_\phi } $ . 現在想像一大組(想像的)觀察結果 $ {D_i} $ , 在類似的情況下採取 $ D $ . 即它們是來自的樣本 $ s(d|\theta) $ . 自從 $ H_\theta $ 支持概率質量 $ h $ PDF 的 $ s(d|\theta) $ , $ P(D_i \in H_\theta) = h $ 對所有人 $ i $ . 因此,分數 $ {D_i} $ 為此 $ D_i \in H_\theta $ 是 $ h $ . 因此,使用上面的等價式, $ {D_i} $ 為此 $ \theta \in C_{D_i} $ 也是 $ h $ .
那麼,這就是常客所聲稱的 $ h $ 置信域 $ \theta $ 總數是:
進行大量虛構的觀察 $ {D_i} $ 從抽樣分佈 $ s(d|\theta) $ 這引起了觀察到的統計數據 $ D $ . 然後, $ \theta $ 位於分數之內 $ h $ 的類似但虛構的置信區域 $ {C_{D_i}} $ .
置信區域 $ C_D $ 因此,不對以下概率提出任何主張 $ \theta $ 躺在某處!原因很簡單,公式中沒有任何內容可以讓我們談論概率分佈 $ \theta $ . 解釋只是精巧的上層建築,並沒有改善基礎。基地只有 $ s(d | \theta) $ 和 $ D $ , 在哪裡 $ \theta $ 不顯示為分佈數量,也沒有我們可以用來解決這個問題的信息。基本上有兩種方法可以得到分佈 $ \theta $ :
- 直接根據手頭的信息分配分佈: $ p(\theta | I) $ .
- 涉及 $ \theta $ 到另一個分佈的數量: $ p(\theta | I) = \int p(\theta x | I) dx = \int p(\theta | x I) p(x | I) dx $ .
在這兩種情況下, $ \theta $ 必須出現在左側某處。頻率論者不能使用任何一種方法,因為它們都需要異端先驗。
貝葉斯觀點
貝葉斯能做的最多的 $ h $ 置信域 $ C_D $ ,無條件地給出,只是直接的解釋:它是 $ \phi $ 為此 $ D $ 落在 $ h $ -HDR $ H_\phi $ 抽樣分佈 $ s(d|\phi) $ . 它不一定能告訴我們很多關於 $ \theta $ ,這就是為什麼。
的概率 $ \theta \in C_D $ , 給定 $ D $ 和背景資料 $ I $ , 是: $$ \begin{align*} P(\theta \in C_D | DI) &= \int_{C_D} p(\theta | DI) d\theta \ &= \int_{C_D} \frac{p(D | \theta I) p(\theta | I)}{p(D | I)} d\theta \end{align*} $$ 請注意,與常客解釋不同,我們立即要求分佈 $ \theta $ . 背景資料 $ I $ 告訴我們,和以前一樣,抽樣分佈是 $ s(d | \theta) $ : $$ \begin{align*} P(\theta \in C_D | DI) &= \int_{C_D} \frac{s(D | \theta) p(\theta | I)}{p(D | I)} d \theta \ &= \frac{\int_{C_D} s(D | \theta) p(\theta | I) d\theta}{p(D | I)} \ \text{i.e.} \quad\quad P(\theta \in C_D | DI) &= \frac{\int_{C_D} s(D | \theta) p(\theta | I) d\theta}{\int s(D | \theta) p(\theta | I) d\theta} \end{align*} $$ 現在這個表達式通常不會計算為 $ h $ ,也就是說, $ h $ 置信域 $ C_D $ 並不總是包含 $ \theta $ 有概率 $ h $ . 事實上,它可能與 $ h $ . 但是,在許多常見情況下,它確實評估為 $ h $ ,這就是為什麼置信區域通常與我們的概率直覺一致。
例如,假設先驗聯合 PDF $ d $ 和 $ \theta $ 是對稱的 $ p_{d,\theta}(d,\theta | I) = p_{d,\theta}(\theta,d | I) $ . (顯然,這涉及一個假設,即 PDF 範圍在同一域中 $ d $ 和 $ \theta $ .) 那麼,如果先驗是 $ p(\theta | I) = f(\theta) $ , 我們有 $ s(D | \theta) p(\theta | I) = s(D | \theta) f(\theta) = s(\theta | D) f(D) $ . 因此 $$ \begin{align*} P(\theta \in C_D | DI) &= \frac{\int_{C_D} s(\theta | D) d\theta}{\int s(\theta | D) d\theta} \ \text{i.e.} \quad\quad P(\theta \in C_D | DI) &= \int_{C_D} s(\theta | D) d\theta \end{align*} $$ 根據 HDR 的定義,我們知道對於任何 $ \psi \in \Theta $ $$ \begin{align*} \int_{H_\psi} s(d | \psi) dd &= h \ \text{and therefore that} \quad\quad \int_{H_D} s(d | D) dd &= h \ \text{or equivalently} \quad\quad \int_{H_D} s(\theta | D) d\theta &= h \end{align*} $$ 因此,鑑於 $ s(d | \theta) f(\theta) = s(\theta | d) f(d) $ , $ C_D = H_D $ 暗示 $ P(\theta \in C_D | DI) = h $ . 前文滿足 $$ C_D = H_D \longleftrightarrow \forall \psi ; [ \psi \in C_D \leftrightarrow \psi \in H_D ] $$ 在頂部附近應用等價: $$ C_D = H_D \longleftrightarrow \forall \psi ; [ D \in H_\psi \leftrightarrow \psi \in H_D ] $$ 因此,置信區域 $ C_D $ 包含 $ \theta $ 有概率 $ h $ 如果對於所有可能的值 $ \psi $ 的 $ \theta $ , 這 $ h $ -HDR 的 $ s(d | \psi) $ 包含 $ D $ 當且僅當 $ h $ -HDR 的 $ s(d | D) $ 包含 $ \psi $ .
現在對稱關係 $ D \in H_\psi \leftrightarrow \psi \in H_D $ 對所有人都很滿意 $ \psi $ 什麼時候 $ s(\psi + \delta | \psi) = s(D - \delta | D) $ 對所有人 $ \delta $ 跨越支持 $ s(d | D) $ 和 $ s(d | \psi) $ . 因此,我們可以形成以下論點:
- $ s(d | \theta) f(\theta) = s(\theta | d) f(d) $ (前提)
- $ \forall \psi ; \forall \delta ; [ s(\psi + \delta | \psi) = s(D - \delta | D) ] $ (前提)
- $ \forall \psi ; \forall \delta ; [ s(\psi + \delta | \psi) = s(D - \delta | D) ] \longrightarrow \forall \psi ; [ D \in H_\psi \leftrightarrow \psi \in H_D ] $
- $ \therefore \quad \forall \psi ; [ D \in H_\psi \leftrightarrow \psi \in H_D ] $
- $ \forall \psi ; [ D \in H_\psi \leftrightarrow \psi \in H_D ] \longrightarrow C_D = H_D $
- $ \therefore \quad C_D = H_D $
- $ [s(d | \theta) f(\theta) = s(\theta | d) f(d) \wedge C_D = H_D] \longrightarrow P(\theta \in C_D | DI) = h $
- $ \therefore \quad P(\theta \in C_D | DI) = h $
讓我們將參數應用於一維正態分佈均值的置信區間 $ (\mu, \sigma) $ ,給定樣本均值 $ \bar{x} $ 從 $ n $ 測量。我們有 $ \theta = \mu $ 和 $ d = \bar{x} $ , 使得抽樣分佈為 $$ s(d | \theta) = \frac{\sqrt{n}}{\sigma \sqrt{2 \pi}} e^{-\frac{n}{2 \sigma^2} { \left( d - \theta \right) }^2 } $$ 還假設我們一無所知 $ \theta $ 在獲取數據之前(除了它是一個位置參數),因此分配一個統一的先驗: $ f(\theta) = k $ . 顯然我們現在有 $ s(d | \theta) f(\theta) = s(\theta | d) f(d) $ ,所以第一個前提滿足。讓 $ s(d | \theta) = g\left( (d - \theta)^2 \right) $ . (即它可以寫成那種形式。)然後 $$ \begin{gather*} s(\psi + \delta | \psi) = g \left( (\psi + \delta - \psi)^2 \right) = g(\delta^2) \ \text{and} \quad\quad s(D - \delta | D) = g \left( (D - \delta - D)^2 \right) = g(\delta^2) \ \text{so that} \quad\quad \forall \psi ; \forall \delta ; [s(\psi + \delta | \psi) = s(D - \delta | D)] \end{gather*} $$ 於是滿足第二個前提。兩個前提都是正確的,八點論據使我們得出結論, $ \theta $ 位於置信區間 $ C_D $ 是 $ h $ !
因此,我們有一個有趣的諷刺:
- 分配的頻率論者 $ h $ 置信區間不能這麼說 $ P(\theta \in C_D) = h $ ,無論多麼天真地制服 $ \theta $ 在合併數據之前查看。
- 不會分配的貝葉斯 $ h $ 無論如何,置信區間都知道 $ P(\theta \in C_D | DI) = h $ .
最後的話
我們已經確定了條件(即兩個前提), $ h $ 置信區域確實產生概率 $ h $ 那 $ \theta \in C_D $ . 常客會拒絕第一個前提,因為它涉及先驗 $ \theta $ ,而這種破壞交易的行為在通往概率的道路上是不可避免的。但是對於貝葉斯來說,這是可以接受的——不,是必不可少的。這些條件是充分的但不是必要的,所以還有很多其他情況下貝葉斯 $ P(\theta \in C_D | DI) $ 等於 $ h $ . 同樣,在很多情況下 $ P(\theta \in C_D | DI) \ne h $ ,尤其是當先驗信息很重要時。
考慮到手頭的信息,包括統計數據,我們像一致的貝葉斯一樣應用了貝葉斯分析 $ D $ . 但是,如果可能的話,貝葉斯主義者會將他的方法應用於原始測量值——應用於 $ {x_i} $ , 而不是 $ \bar{x} $ . 通常,將原始數據折疊成匯總統計數據 $ D $ 破壞數據中的信息;然後匯總統計數據無法像有關參數的原始數據那樣雄辯 $ \theta $ .