二項式隨機變量的預測區間

January 11, 2017

二項式隨機變量的預測區間的公式（近似或精確）是什麼？

認為, 我們觀察（取自）。這是已知的。

我們的目標是獲得 95% 的預測區間.

點估計是，在哪裡. 置信區間很簡單，但我找不到預測區間的公式. 如果我們知道（而不是)，那麼 95% 的預測區間只涉及找到二項式的分位數。有什麼明顯的我忽略了嗎？

好的，讓我們試試這個。我將給出兩個答案 - 貝葉斯答案，在我看來簡單自然，以及可能的常客答案之一。

貝葉斯解

我們假設在， IE。，，因為Beta-Binomial模型是共軛的，也就是說後驗分佈也是帶參數的Beta分佈，（我正在使用表示成功的次數試驗，而不是）。因此，推理大大簡化。現在，如果您對可能的值有一些先驗知識，您可以使用它來設置和，即定義您的 Beta 先驗，否則您可以假設一個統一的（非信息性）先驗，與，或其他非信息性先驗（參見例如here）。無論如何，你的後路是

在貝葉斯推理中，重要的是後驗概率，這意味著一旦您知道這一點，您就可以對模型中的所有其他量進行推理。你想對 observables 進行推斷: 特別是在新結果的向量上，在哪裡不一定等於. 具體來說，對於每個，我們想計算恰好有的概率在接下來的成功試驗，鑑於我們得到前面的成功試驗；後驗預測質量函數：

然而，我們的二項式模型意味著，有條件地有一定的價值，有的概率成功試驗不依賴於過去的結果：它只是

因此表達式變為

這個積分的結果是一個眾所周知的分佈，稱為 Beta-Binomial 分佈：跳過段落，我們得到可怕的表達式

我們的點估計，給定二次損失，當然是這個分佈的平均值，即

現在，讓我們尋找一個預測區間。由於這是一個離散分佈，我們沒有封閉形式的表達式, 這樣. 原因是，取決於您如何定義分位數，對於離散分佈，分位數函數要么不是函數，要么是不連續函數。但這不是一個大問題：對於小, 你可以寫下概率並從這裡找到這樣

當然你會找到不止一對，所以你最好找最小的從而滿足上述要求。注意

只是 Beta-Binomial 分佈的 CMF（累積質量函數）的值，因此存在封閉形式的表達式，但這是廣義超幾何函數的形式，因此非常複雜。我寧願只安裝 R 包extraDistr並調用pbbinom來計算 Beta-Binomial 分佈的 CMF。具體來說，如果你想計算所有的概率一口氣，只寫：
library(extraDistr)  
jvec <- seq(0, m-1, by = 1) 
probs <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)
其中alpha和beta是您的 Beta 先驗參數的值，即和（因此 1 如果您使用制服之前）。當然，如果 R 為 Beta-Binomial 分佈提供分位數函數，這一切都會簡單得多，但不幸的是它沒有。

貝葉斯解決方案的實際示例

讓,（因此我們最初在 100 次試驗中觀察到 70 次成功）。我們想要一個點估計和成功次數的 95% 預測區間下一個試驗。然後
n <- 100
k <- 70
m <- 20
alpha <- 1
beta  <- 1
我假設之前是統一的：根據您的特定應用的先驗知識，這可能是一個好的先驗知識，也可能不是一個好的先驗知識。因此
bayesian_point_estimate <- m * (alpha + k)/(alpha + beta + n) #13.92157
顯然是一個非整數估計沒有意義，所以我們可以四捨五入到最接近的整數 (14)。然後，對於預測區間：
jvec <- seq(0, m-1, by = 1)
library(extraDistr)
probabilities <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)
概率是
> probabilities
[1] 1.335244e-09 3.925617e-08 5.686014e-07 5.398876e-06
[5] 3.772061e-05 2.063557e-04 9.183707e-04 3.410423e-03
[9] 1.075618e-02 2.917888e-02 6.872028e-02 1.415124e-01
[13] 2.563000e-01 4.105894e-01 5.857286e-01 7.511380e-01
[17] 8.781487e-01 9.546188e-01 9.886056e-01 9.985556e-01
對於等尾概率區間，我們想要最小的這樣和最大的這樣. 這樣，我們將擁有

因此，通過查看上述概率，我們看到和. 這個貝葉斯預測區間的概率是0.9778494，大於0.95。我們可以找到更短的間隔，使得，但在那種情況下，至少兩個尾概率不等式中的一個不會被滿足。

頻率論解決方案

我將遵循Krishnamoorthy 和 Peng 的治療方法，2011 年。讓和是獨立的二項分佈。我們想要一個預測區間，基於觀察. 換句話說，我們尋找這樣：

這 ”“是因為我們正在處理一個離散隨機變量，因此我們不能期望得到準確的覆蓋範圍……但是我們可以尋找一個至少具有名義覆蓋範圍的區間，因此是一個保守的區間。現在, 可以證明條件分佈給定是具有樣本大小的超幾何, 人口中的成功次數和人口規模. 因此條件 pmf 是

的條件 CDF給定因此是

這個 CDF的第一個好處是它不依賴於，我們不知道。第二個好處是它可以很容易地找到我們的 PI：事實上，如果我們觀察到一個值的 X，那麼預測下限是最小整數這樣

相應地，預測上限是最大整數，使得

因此，是一個預測區間至少覆蓋範圍. 請注意，當接近 0 或 1，即使對於較大的,，即它的覆蓋範圍遠大於.

頻率論解決方案的實際示例

與之前的設置相同，但我們不需要指定和（Frequentist 框架中沒有先驗）：
n <- 100
k <- 70
m <- 20
現在使用成功概率的 MLE 估計來獲得點估計，，這反過來導致以下對成功次數的估計試驗：
frequentist_point_estimate <- m * k/n #14
對於預測區間，過程有點不同。我們尋找最大的這樣，因此讓我們為所有計算上述表達式在：
jvec <- seq(0, m, by = 1)
probabilities <- phyper(k,n,m,k+jvec)
我們可以看到最大的使得概率仍然大於 0.025 是
jvec[which.min(probabilities > 0.025) - 1] # 18
與貝葉斯方法相同。預測下限是最小整數，使得，因此
probabilities <- 1-phyper(k-1,n,m,k+jvec)
jvec[which.max(probabilities > 0.025) - 1] # 8
因此，我們的常客“精確”預測區間是.

引用自：https://stats.stackexchange.com/questions/255570

comments powered by Disqus

二項式隨機變量的預測區間

貝葉斯解

貝葉斯解決方案的實際示例

頻率論解決方案

頻率論解決方案的實際示例

相關問答

二項式-二項式是二項式嗎？

難以使用迭代對數定律

6 名 Corona 陽性 (COVID-19) 女性的母乳不含病毒——我們可以對此發表信心聲明嗎？

用二項式數據解釋廣義線性混合模型

維基百科關於二項式比例的 Clopper-Pearson 區間的文本

考試結果是二項式嗎？