從貝葉斯概率的角度來看，為什麼 95% 置信區間不包含 95% 概率的真實參數？

March 7, 2014

從關於置信區間的維基百科頁面：

…如果置信區間是在重複（可能不同）實驗的許多單獨數據分析中構建的，則包含參數真實值的此類區間的比例將與置信水平相匹配…

並從同一頁面：

給定實際獲得的數據，置信區間並不預測參數的真實值具有處於置信區間內的特定概率。

如果我理解正確，那麼最後一個陳述是在考慮到概率論的常客解釋的情況下做出的。但是，**從貝葉斯概率的角度來看，為什麼 95% 置信區間不包含 95% 概率的真實參數？**如果不是，那麼以下推理有什麼問題？

如果我知道一個過程在 95% 的情況下會產生正確答案，那麼下一個答案正確的概率是 0.95（假設我沒有關於該過程的任何額外信息）。類似地，如果有人向我展示了一個由 95% 的時間包含真實參數的過程創建的置信區間，考慮到我所知道的，我是否應該說它包含 0.95 概率的真實參數？

這個問題與為什麼 95% CI 並不意味著 95% 的機會包含均值？這個問題的答案一直集中在為什麼 95% CI 並不意味著從頻率論者的角度來看有 95% 的機會包含平均值。我的問題是一樣的，但從貝葉斯概率的角度來看。

更新：在幾年後的事後看來，我對基本相同的材料進行了更簡潔的處理，以回答類似的問題。

如何構建置信區域

讓我們從構建置信區域的一般方法開始。它可以應用於單個參數，以產生置信區間或一組區間；它可以應用於兩個或多個參數，以產生更高維度的置信區域。

我們斷言觀察到的統計數據 $ D $ 源自帶有參數的分佈 $ \theta $ ，即抽樣分佈 $ s(d|\theta) $ 超過可能的統計數據 $ d $ ，並為 $ \theta $ 在可能值的集合中 $ \Theta $ . 定義最高密度區域 (HDR)： $ h $ -PDF 的 HDR 是其域中支持概率的最小子集 $ h $ . 表示 $ h $ -HDR 的 $ s(d|\psi) $ 作為 $ H_\psi $ , 對於任何 $ \psi \in \Theta $ . 然後， $ h $ 置信域 $ \theta $ , 給定數據 $ D $ , 是集合 $ C_D = { \phi : D \in H_\phi } $ . 的典型值 $ h $ 將是 0.95。

頻率論的解釋

從前面的置信區域定義如下 $$ d \in H_\psi \longleftrightarrow \psi \in C_d $$ 和 $ C_d = { \phi : d \in H_\phi } $ . 現在想像一大組（想像的）觀察結果 $ {D_i} $ , 在類似的情況下採取 $ D $ . 即它們是來自的樣本 $ s(d|\theta) $ . 自從 $ H_\theta $ 支持概率質量 $ h $ PDF 的 $ s(d|\theta) $ , $ P(D_i \in H_\theta) = h $ 對所有人 $ i $ . 因此，分數 $ {D_i} $ 為此 $ D_i \in H_\theta $ 是 $ h $ . 因此，使用上面的等價式， $ {D_i} $ 為此 $ \theta \in C_{D_i} $ 也是 $ h $ .

那麼，這就是常客所聲稱的 $ h $ 置信域 $ \theta $ 總數是：

進行大量虛構的觀察 $ {D_i} $ 從抽樣分佈 $ s(d|\theta) $ 這引起了觀察到的統計數據 $ D $ . 然後， $ \theta $ 位於分數之內 $ h $ 的類似但虛構的置信區域 $ {C_{D_i}} $ .

置信區域 $ C_D $ 因此，不對以下概率提出任何主張 $ \theta $ 躺在某處！原因很簡單，公式中沒有任何內容可以讓我們談論概率分佈 $ \theta $ . 解釋只是精巧的上層建築，並沒有改善基礎。基地只有 $ s(d | \theta) $ 和 $ D $ ，在哪裡 $ \theta $ 不顯示為分佈數量，也沒有我們可以用來解決這個問題的信息。基本上有兩種方法可以得到分佈 $ \theta $ ：

直接根據手頭的信息分配分佈： $ p(\theta | I) $ .

涉及 $ \theta $ 到另一個分佈的數量： $ p(\theta | I) = \int p(\theta x | I) dx = \int p(\theta | x I) p(x | I) dx $ .

在這兩種情況下， $ \theta $ 必須出現在左側某處。頻率論者不能使用任何一種方法，因為它們都需要異端先驗。

貝葉斯觀點

貝葉斯能做的最多的 $ h $ 置信域 $ C_D $ ，無條件地給出，只是直接的解釋：它是 $ \phi $ 為此 $ D $ 落在 $ h $ -HDR $ H_\phi $ 抽樣分佈 $ s(d|\phi) $ . 它不一定能告訴我們很多關於 $ \theta $ ，這就是為什麼。

的概率 $ \theta \in C_D $ , 給定 $ D $ 和背景資料 $ I $ ，是： $$ \begin{align*} P(\theta \in C_D | DI) &= \int_{C_D} p(\theta | DI) d\theta \ &= \int_{C_D} \frac{p(D | \theta I) p(\theta | I)}{p(D | I)} d\theta \end{align*} $$ 請注意，與常客解釋不同，我們立即要求分佈 $ \theta $ . 背景資料 $ I $ 告訴我們，和以前一樣，抽樣分佈是 $ s(d | \theta) $ ： $$ \begin{align*} P(\theta \in C_D | DI) &= \int_{C_D} \frac{s(D | \theta) p(\theta | I)}{p(D | I)} d \theta \ &= \frac{\int_{C_D} s(D | \theta) p(\theta | I) d\theta}{p(D | I)} \ \text{i.e.} \quad\quad P(\theta \in C_D | DI) &= \frac{\int_{C_D} s(D | \theta) p(\theta | I) d\theta}{\int s(D | \theta) p(\theta | I) d\theta} \end{align*} $$ 現在這個表達式通常不會計算為 $ h $ ，也就是說， $ h $ 置信域 $ C_D $ 並不總是包含 $ \theta $ 有概率 $ h $ . 事實上，它可能與 $ h $ . 但是，在許多常見情況下，它確實評估為 $ h $ ，這就是為什麼置信區域通常與我們的概率直覺一致。

例如，假設先驗聯合 PDF $ d $ 和 $ \theta $ 是對稱的 $ p_{d,\theta}(d,\theta | I) = p_{d,\theta}(\theta,d | I) $ . （顯然，這涉及一個假設，即 PDF 範圍在同一域中 $ d $ 和 $ \theta $ .) 那麼，如果先驗是 $ p(\theta | I) = f(\theta) $ ，我們有 $ s(D | \theta) p(\theta | I) = s(D | \theta) f(\theta) = s(\theta | D) f(D) $ . 因此 $$ \begin{align*} P(\theta \in C_D | DI) &= \frac{\int_{C_D} s(\theta | D) d\theta}{\int s(\theta | D) d\theta} \ \text{i.e.} \quad\quad P(\theta \in C_D | DI) &= \int_{C_D} s(\theta | D) d\theta \end{align*} $$ 根據 HDR 的定義，我們知道對於任何 $ \psi \in \Theta $ $$ \begin{align*} \int_{H_\psi} s(d | \psi) dd &= h \ \text{and therefore that} \quad\quad \int_{H_D} s(d | D) dd &= h \ \text{or equivalently} \quad\quad \int_{H_D} s(\theta | D) d\theta &= h \end{align*} $$ 因此，鑑於 $ s(d | \theta) f(\theta) = s(\theta | d) f(d) $ , $ C_D = H_D $ 暗示 $ P(\theta \in C_D | DI) = h $ . 前文滿足 $$ C_D = H_D \longleftrightarrow \forall \psi ; [ \psi \in C_D \leftrightarrow \psi \in H_D ] $$ 在頂部附近應用等價： $$ C_D = H_D \longleftrightarrow \forall \psi ; [ D \in H_\psi \leftrightarrow \psi \in H_D ] $$ 因此，置信區域 $ C_D $ 包含 $ \theta $ 有概率 $ h $ 如果對於所有可能的值 $ \psi $ 的 $ \theta $ ，這 $ h $ -HDR 的 $ s(d | \psi) $ 包含 $ D $ 當且僅當 $ h $ -HDR 的 $ s(d | D) $ 包含 $ \psi $ .

現在對稱關係 $ D \in H_\psi \leftrightarrow \psi \in H_D $ 對所有人都很滿意 $ \psi $ 什麼時候 $ s(\psi + \delta | \psi) = s(D - \delta | D) $ 對所有人 $ \delta $ 跨越支持 $ s(d | D) $ 和 $ s(d | \psi) $ . 因此，我們可以形成以下論點：

$ s(d | \theta) f(\theta) = s(\theta | d) f(d) $ （前提）

$ \forall \psi ; \forall \delta ; [ s(\psi + \delta | \psi) = s(D - \delta | D) ] $ （前提）

$ \forall \psi ; \forall \delta ; [ s(\psi + \delta | \psi) = s(D - \delta | D) ] \longrightarrow \forall \psi ; [ D \in H_\psi \leftrightarrow \psi \in H_D ] $

$ \therefore \quad \forall \psi ; [ D \in H_\psi \leftrightarrow \psi \in H_D ] $

$ \forall \psi ; [ D \in H_\psi \leftrightarrow \psi \in H_D ] \longrightarrow C_D = H_D $

$ \therefore \quad C_D = H_D $

$ [s(d | \theta) f(\theta) = s(\theta | d) f(d) \wedge C_D = H_D] \longrightarrow P(\theta \in C_D | DI) = h $

$ \therefore \quad P(\theta \in C_D | DI) = h $

讓我們將參數應用於一維正態分佈均值的置信區間 $ (\mu, \sigma) $ ，給定樣本均值 $ \bar{x} $ 從 $ n $ 測量。我們有 $ \theta = \mu $ 和 $ d = \bar{x} $ , 使得抽樣分佈為 $$ s(d | \theta) = \frac{\sqrt{n}}{\sigma \sqrt{2 \pi}} e^{-\frac{n}{2 \sigma^2} { \left( d - \theta \right) }^2 } $$ 還假設我們一無所知 $ \theta $ 在獲取數據之前（除了它是一個位置參數），因此分配一個統一的先驗： $ f(\theta) = k $ . 顯然我們現在有 $ s(d | \theta) f(\theta) = s(\theta | d) f(d) $ ，所以第一個前提滿足。讓 $ s(d | \theta) = g\left( (d - \theta)^2 \right) $ . （即它可以寫成那種形式。）然後 $$ \begin{gather*} s(\psi + \delta | \psi) = g \left( (\psi + \delta - \psi)^2 \right) = g(\delta^2) \ \text{and} \quad\quad s(D - \delta | D) = g \left( (D - \delta - D)^2 \right) = g(\delta^2) \ \text{so that} \quad\quad \forall \psi ; \forall \delta ; [s(\psi + \delta | \psi) = s(D - \delta | D)] \end{gather*} $$ 於是滿足第二個前提。兩個前提都是正確的，八點論據使我們得出結論， $ \theta $ 位於置信區間 $ C_D $ 是 $ h $ ！

因此，我們有一個有趣的諷刺：

分配的頻率論者 $ h $ 置信區間不能這麼說 $ P(\theta \in C_D) = h $ ，無論多麼天真地制服 $ \theta $ 在合併數據之前查看。

不會分配的貝葉斯 $ h $ 無論如何，置信區間都知道 $ P(\theta \in C_D | DI) = h $ .

最後的話

我們已經確定了條件（即兩個前提）， $ h $ 置信區域確實產生概率 $ h $ 那 $ \theta \in C_D $ . 常客會拒絕第一個前提，因為它涉及先驗 $ \theta $ ，而這種破壞交易的行為在通往概率的道路上是不可避免的。但是對於貝葉斯來說，這是可以接受的——不，是必不可少的。這些條件是充分的但不是必要的，所以還有很多其他情況下貝葉斯 $ P(\theta \in C_D | DI) $ 等於 $ h $ . 同樣，在很多情況下 $ P(\theta \in C_D | DI) \ne h $ ，尤其是當先驗信息很重要時。

考慮到手頭的信息，包括統計數據，我們像一致的貝葉斯一樣應用了貝葉斯分析 $ D $ . 但是，如果可能的話，貝葉斯主義者會將他的方法應用於原始測量值——應用於 $ {x_i} $ ，而不是 $ \bar{x} $ . 通常，將原始數據折疊成匯總統計數據 $ D $ 破壞數據中的信息；然後匯總統計數據無法像有關參數的原始數據那樣雄辯 $ \theta $ .

引用自：https://stats.stackexchange.com/questions/89099

comments powered by Disqus

從貝葉斯概率的角度來看，為什麼 95% 置信區間不包含 95% 概率的真實參數？

如何構建置信區域

頻率論的解釋

貝葉斯觀點

最後的話

相關問答

當您擁有全部人口時，是否適合在數據上放置“誤差線”？

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

估計參數函數周圍的置信區間

計算兩個獨立比例之差的標準誤

如何從二元邏輯回歸模型中獲得兩個概率之間差異的置信區間？

Z值可以被認為是標準偏差的數量嗎？