Confidence-Interval

置信區間與樣本量?

  • October 4, 2012

我對統計數據和置信區間領域完全陌生。所以這可能非常微不足道,甚至聽起來很愚蠢。如果您能幫助我理解或指出一些可以更好地解釋這一點的文獻/文本/博客,我將不勝感激。

我在 CNN、福克斯新聞、Politico 等各種新聞網站上看到了他們關於 2012 年美國總統競選的民意調查。每個機構都進行了一些民意調查並報告了一些表格的統計數據:

CNN:奧巴馬的受歡迎程度是 X%,誤差幅度為 +/- x1%。樣本量 600。FOX:奧巴馬的受歡迎程度為 Y%,誤差幅度為 +/- y1%。樣本量 800。XYZ:奧巴馬的受歡迎程度為 Z%,誤差幅度為 +/- z1%。樣本大小 300。

以下是我的疑問:

  1. 我如何決定信任哪一個?它應該基於置信區間,還是我應該假設由於 Fox 的樣本量更大,它的估計更可靠?置信度和样本量之間是否存在隱含關係,這樣指定一個就不需要指定另一個?
  2. 我可以確定置信區間的標準差嗎?如果是這樣,它是始終有效還是僅對某些分佈(如高斯)有效?
  3. 有沒有辦法可以“合併”或“組合”上述三個估計並獲得我自己的估計以及置信區間?在這種情況下,我應該要求多大的樣本量?

我提到 CNN/Fox 只是為了更好地解釋我的例子。我無意在這裡發起民主黨與共和黨的辯論。

請幫助我理解我提出的問題。

除了彼得的精彩回答之外,這裡還有一些針對您的具體問題的答案:

  1. 信任誰還取決於誰在進行民意調查以及他們為獲得優質民意調查付出了哪些努力。如果樣本不具有代表性,則更大的樣本量並不好,進行大規模民意調查,但僅在一個非搖擺狀態下不會給出很好的結果。

樣本量與置信區間的寬度之間存在關係,但其他因素也會影響寬度,例如百分比與 0、1 或 0.5 的接近程度;使用了哪些偏差調整,如何採集樣本(聚類、分層等)。一般規則是置信區間的寬度將與 $ \frac{1}{\sqrt{n}} $ ,因此要將間隔減半,您需要樣本量的 4 倍。 2. 如果您對如何收集樣本以及使用什麼公式計算區間有足夠的了解,那麼您可以求解標準偏差(您還需要知道所使用的置信水平,通常為 0.05)。但是對於分層樣本和聚類樣本,公式是不同的。大多數民意調查也關注百分比,因此會使用二項分佈。 3. 有多種方法可以組合信息,但您通常需要了解樣本是如何收集的,或者願意對區間的構建方式做出某種形式的假設。貝葉斯方法是一種方法。

引用自:https://stats.stackexchange.com/questions/38676

comments powered by Disqus