為什麼給定 n 的比例標準誤在 0.5 時最大?
當所討論的比例為 0.5 時,對於給定的 N,比例的標準誤差將是最大的,並且隨著比例離 0.5 越遠,它會變得越小。當我查看比例標準誤差的方程時,我可以理解為什麼會這樣,但我無法進一步解釋這一點。
除了公式的數學性質之外,還有什麼解釋嗎?如果是這樣,為什麼估計比例(對於給定的 N)越接近 0 或 1,不確定性就越小?
背景和術語
為了完全清楚我們在討論什麼,讓我們建立一些概念和術語。一個很好的比例模型是二元骨灰盒:它包含銀色(“成功”)或紫紅色(“失敗”)顏色的球。甕中銀球的比例為(但這不是我們將要談論的“比例”)。
這個骨灰盒提供了一種模擬伯努利試驗的方法。得一*證悟,*將球混勻,一盲抽出,觀其色。要獲得額外的實現,首先通過返回抽出的球來重構盒子,然後重複該過程預定次數。的順序實現可以通過其成功次數來總結,. 它是一個隨機變量,其性質完全由下式決定和. 的分佈被稱為二項式分配。(實驗或“樣本”)比例是比率.
這些數字是各種二項式比例的概率分佈的條形圖. 最值得注意的是一致的模式,無論,其中分佈變得更窄(並且條形相應地更高)為從移動上下來。
的標準差是問題中提到*的比例標準誤。*對於任何給定的, 這個數量只能取決於. 讓我們稱之為. 通過轉換球的角色——將銀色球稱為“失敗”,將紫紅色球稱為“成功”——很容易看出. 因此情況- 那是,——一定很特別。問題是如何變化為遠離趨向一個更極端的值,例如.
知識與理解
因為每個人在他們的教育早期都看到過這樣的數字,所以每個人都“知道”地塊的寬度——它是由–必須減少為遠離. 但知識實際上只是*經驗,*而問題尋求更深層次的理解。這種理解可以從對二項分佈的仔細分析中獲得,例如亞伯拉罕·德·莫弗在大約 300 年前所做的。(它們在精神上類似於我在討論中心極限定理時提出的那些。)不過,我認為,一些相對簡單的考慮可能足以說明寬度必須在附近最寬.
簡單直觀的分析
很明顯,我們應該期望實驗中成功的比例接近. 標準誤差涉及我們可以合理地假設實際結果與該期望相距多遠會撒謊。假設,不失一般性,在。。。之間和, 需要增加什麼從? 通常,周圍實驗中抽出的球是銀色的,因此(因此)大約是紫紅色。為了獲得更多的銀球,其中一些紫紅色的結果必須有所不同。機會以這種方式運作的可能性有多大?顯而易見的答案是,當很小,我們永遠不可能抽到銀球。因此,我們抽到銀球而不是紫紅色球的機會總是很低。我們可能有理由希望,純粹靠運氣,一定比例的紫紅色的結果可能會有所不同,但似乎不可能有更多的變化。因此,有理由認為變化不會超過. 等效地,變化不會超過.
結局_
於是神奇的組合出現。 這實際上解決了這個問題:顯然這個數量在並在或者. 它為“一個極端比另一個更具限制性”的斷言或描述我們所知道的其他類似努力提供了一個直觀但定量的理由。
然而,不是完全正確的值:它只是指明了方向,告訴我們在估計. 我們忽略了運氣也傾向於對我們不利的事實:正如一些紫紅色的球可能是銀色的,一些銀色的球可能是紫紅色的。嚴格考慮所有可能性可能會變得複雜,但結果是,而不是使用作為多少的合理限制可能會偏離預期,為了正確考慮所有可能的結果,我們必須取平方根 . (有關原因的更詳細說明,請訪問(https://stats.stackexchange.com/a/3904。)除以,我們知道比例的隨機變化本身應該是這是標準誤.