Confidence-Interval

維基百科關於二項式比例的 Clopper-Pearson 區間的文本

  • September 25, 2019

我正在嘗試理解維基百科中關於Clopper-Pearson 區間的以下文本(即 2019-09-25):

Clopper-Pearson 區間是一種早期且非常常用的計算二項式置信區間的方法。 [8] 這通常被稱為“精確”方法,因為它基於二項分佈的累積概率(即,完全正確的分佈而不是近似值)。但是,在我們知道總體規模的情況下,區間可能不是最小的,因為它們包含不可能的比例:例如,對於規模為 10 的總體,區間 [0.35, 0.65] 會太大 ,因為真實比例不能介於 0.35 和 0.4 之間,或介於 0.6 和 0.65 之間。

我確實明白,在給定的示例中,不可能獲得代表0.35 的二項式比例的結果(因為這需要 3.5 次成功,這不是可能的結果)。

但是,我相信 CP 間隔是為了代表潛在成功概率的範圍(“真實比例”),這些概率具有產生觀察到的(整數)結果的最小概率。據我所知,這些“真實比例”可以取 0.35 到 0.4 之間或 0.6 到 0.65 之間的值。

我看錯了嗎,還是引用的文字不正確?


更新

經過反思,我可以看到我的困惑來自哪裡。在我工作的環境中,我們有 $ N $ 有一個客戶 $ p $ 發生在他們身上的概率。我們可觀察到的是實際遇到此事件的客戶端數量。

所以,我們不是從一個有綠色和紅色球的花瓶中取樣,而這些值 $ p $ 可以承擔完全獨立的 $ N $ (它們絕對不是的整數倍 $ 1/N $ )。我想,引用的維基百科文本指的是花瓶案例,儘管頁面的介紹似乎也非常適用於我的情況:

在統計學中,二項式比例置信區間是根據一系列成功-失敗實驗(伯努利試驗)的結果計算的成功概率的置信區間。換句話說,二項式比例置信區間是僅知道實驗次數 n 和成功次數 nS 時成功概率 p 的區間估計。

而我認為維基百科指的是我的客戶群 $ N $ 作為人口,他們實際上指的是花瓶的大小。

鑑於此,我現在可以理解置信區間的限制以及對 CP 區間效率的討論。鑑於我的概率值的連續性,我認為 CP 方法的任何限制都不適用於我的情況。

維基百科上的聲明中融合了多個概念。

  • *讓我們首先解決“間隔可能不是最小的”*這句話
  • 然後看看不同的問題*“我們知道人口規模的情況”*

第 1 點

間隔可能不是最小的

間隔不是有效的(過於保守)是正確的。但出於不同的原因。


Clopper-Pearson 區間包含以下值 $ p $ 在某個特定的假設檢驗 $ \alpha $ 水平會通過(不拒絕空值)。(這就是置信區間的工作方式)

二項分佈的問題是在最後一部分“在某個特定條件下的假設檢驗 $ \alpha $ “。由於結果變量是離散的,因此與這些結果相關的 p 值也是離散的。

假設您希望測試拋硬幣過程的假設 p=0.5(對於 p 的所有值,您使用置信區間) $ \alpha=0.01 $ 然後你翻轉八次,那麼觀察結果,如果假設為真,則分佈為

0     1     2     3     4     5     6     7     8
0.004 0.032 0.109 0.219 0.273 0.219 0.109 0.032 0.004

值 1 到 7 將使您不會在這個預設的 1% 水平上拒絕假設。但是這種接受(即不拒絕)將在 99.2% 的時間內發生,而不是 99%(如果 p=0.5 為真)。

所以這意味著置信區間將是保守的。它將比規定的更頻繁地包含實際參數值。Clopper-Pearson 區間將保證該區間至少包含參數 $ x $ 百分比的時間,但它不需要完全是那個百分比。

這與維基百科上的進一步文本有關

例如,95% Clopper-Pearson 區間的真實覆蓋率可能遠高於 95%,具體取決於 n 和 θ。因此,區間可能比達到 95% 置信度所需的更寬

第 2 點

我們知道人口規模的情況

這是指從具有(已知)固定大小的總體中抽樣。例如,從花瓶中更換取樣 $ n $ 球,其中一個比例 $ p $ 有一定的特徵(比如紅色)。顯然,這個比例需要是的倍數 $ 1/n $ . 花瓶裡只能有整數個紅球。

假設你有一個有十個球的花瓶,並希望通過採樣來預測有多少是紅色的。那麼說紅球個數在0.35到0.65之間的比例就沒有意義了(相當於’花瓶裡的紅球個數在3.5到6.5之間')。


所以有兩個問題使得 Clopper-Pearson 區間不是最小的。這可能在維基百科上混在一起不方便,或者沒有很清楚地說明。

第一點實際上只說明區間沒有效率;它可能具有更高的真實覆蓋率。但是沒有辦法讓間隔變小。除非我們使用先驗知識並且可以使用貝葉斯區間。

第二點有點奇怪。對小群體進行替換抽樣並不是典型的情況。我相信它可能已被用作間隔效率低下的論據,而第一點則意味著/應該被使用。


StackExchangeStrike撰寫

引用自:https://stats.stackexchange.com/questions/428672

comments powered by Disqus