二項式隨機變量的預測區間
二項式隨機變量的預測區間的公式(近似或精確)是什麼?
認為, 我們觀察(取自)。這是已知的。
我們的目標是獲得 95% 的預測區間.
點估計是, 在哪裡. 置信區間很簡單,但我找不到預測區間的公式. 如果我們知道(而不是),那麼 95% 的預測區間只涉及找到二項式的分位數。有什麼明顯的我忽略了嗎?
好的,讓我們試試這個。我將給出兩個答案 - 貝葉斯答案,在我看來簡單自然,以及可能的常客答案之一。
貝葉斯解
我們假設在, IE。,,因為Beta-Binomial模型是共軛的,也就是說後驗分佈也是帶參數的Beta分佈, (我正在使用表示成功的次數試驗,而不是)。因此,推理大大簡化。現在,如果您對可能的值有一些先驗知識,您可以使用它來設置和,即定義您的 Beta 先驗,否則您可以假設一個統一的(非信息性)先驗,與,或其他非信息性先驗(參見例如here)。無論如何,你的後路是
在貝葉斯推理中,重要的是後驗概率,這意味著一旦您知道這一點,您就可以對模型中的所有其他量進行推理。你想對 observables 進行推斷: 特別是在新結果的向量上, 在哪裡不一定等於. 具體來說,對於每個,我們想計算恰好有的概率在接下來的成功試驗,鑑於我們得到前面的成功試驗;後驗預測質量函數:
然而,我們的二項式模型意味著,有條件地有一定的價值,有的概率成功試驗不依賴於過去的結果:它只是
因此表達式變為
這個積分的結果是一個眾所周知的分佈,稱為 Beta-Binomial 分佈:跳過段落,我們得到可怕的表達式
我們的點估計,給定二次損失,當然是這個分佈的平均值,即
現在,讓我們尋找一個預測區間。由於這是一個離散分佈,我們沒有封閉形式的表達式, 這樣. 原因是,取決於您如何定義分位數,對於離散分佈,分位數函數要么不是函數,要么是不連續函數。但這不是一個大問題:對於小, 你可以寫下概率並從這裡找到這樣
當然你會找到不止一對,所以你最好找最小的從而滿足上述要求。注意
只是 Beta-Binomial 分佈的 CMF(累積質量函數)的值,因此存在封閉形式的表達式,但這是廣義超幾何函數的形式,因此非常複雜。我寧願只安裝 R 包
extraDistr
並調用pbbinom
來計算 Beta-Binomial 分佈的 CMF。具體來說,如果你想計算所有的概率一口氣,只寫:library(extraDistr) jvec <- seq(0, m-1, by = 1) probs <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)
其中
alpha
和beta
是您的 Beta 先驗參數的值,即和(因此 1 如果您使用制服之前)。當然,如果 R 為 Beta-Binomial 分佈提供分位數函數,這一切都會簡單得多,但不幸的是它沒有。貝葉斯解決方案的實際示例
讓,(因此我們最初在 100 次試驗中觀察到 70 次成功)。我們想要一個點估計和成功次數的 95% 預測區間下一個試驗。然後
n <- 100 k <- 70 m <- 20 alpha <- 1 beta <- 1
我假設之前是統一的:根據您的特定應用的先驗知識,這可能是一個好的先驗知識,也可能不是一個好的先驗知識。因此
bayesian_point_estimate <- m * (alpha + k)/(alpha + beta + n) #13.92157
顯然是一個非整數估計沒有意義,所以我們可以四捨五入到最接近的整數 (14)。然後,對於預測區間:
jvec <- seq(0, m-1, by = 1) library(extraDistr) probabilities <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)
概率是
> probabilities [1] 1.335244e-09 3.925617e-08 5.686014e-07 5.398876e-06 [5] 3.772061e-05 2.063557e-04 9.183707e-04 3.410423e-03 [9] 1.075618e-02 2.917888e-02 6.872028e-02 1.415124e-01 [13] 2.563000e-01 4.105894e-01 5.857286e-01 7.511380e-01 [17] 8.781487e-01 9.546188e-01 9.886056e-01 9.985556e-01
對於等尾概率區間,我們想要最小的這樣和最大的這樣. 這樣,我們將擁有
因此,通過查看上述概率,我們看到和. 這個貝葉斯預測區間的概率是0.9778494,大於0.95。我們可以找到更短的間隔,使得,但在那種情況下,至少兩個尾概率不等式中的一個不會被滿足。
頻率論解決方案
我將遵循Krishnamoorthy 和 Peng 的治療方法,2011 年。讓和是獨立的二項分佈。我們想要一個預測區間,基於觀察. 換句話說,我們尋找這樣:
這 ”“是因為我們正在處理一個離散隨機變量,因此我們不能期望得到準確的覆蓋範圍……但是我們可以尋找一個至少具有名義覆蓋範圍的區間,因此是一個保守的區間。現在, 可以證明條件分佈給定是具有樣本大小的超幾何, 人口中的成功次數和人口規模. 因此條件 pmf 是
的條件 CDF給定因此是
這個 CDF的第一個好處是它不依賴於,我們不知道。第二個好處是它可以很容易地找到我們的 PI:事實上,如果我們觀察到一個值的 X,那麼預測下限是最小整數這樣
相應地,預測上限是最大整數,使得
因此,是一個預測區間至少覆蓋範圍. 請注意,當接近 0 或 1,即使對於較大的,,即它的覆蓋範圍遠大於.
頻率論解決方案的實際示例
與之前的設置相同,但我們不需要指定和(Frequentist 框架中沒有先驗):
n <- 100 k <- 70 m <- 20
現在使用成功概率的 MLE 估計來獲得點估計,,這反過來導致以下對成功次數的估計試驗:
frequentist_point_estimate <- m * k/n #14
對於預測區間,過程有點不同。我們尋找最大的這樣,因此讓我們為所有計算上述表達式在:
jvec <- seq(0, m, by = 1) probabilities <- phyper(k,n,m,k+jvec)
我們可以看到最大的使得概率仍然大於 0.025 是
jvec[which.min(probabilities > 0.025) - 1] # 18
與貝葉斯方法相同。預測下限是最小整數,使得, 因此
probabilities <- 1-phyper(k-1,n,m,k+jvec) jvec[which.max(probabilities > 0.025) - 1] # 8
因此,我們的常客“精確”預測區間是.