Statistical-Significance

我們如何確定小樣本何時具有統計顯著性?

  • October 26, 2020

抱歉,如果標題不清楚,我不是統計學家,也不知道如何表達。

在 worldometers 上查看全球冠狀病毒統計數據,並按每百萬人口的病例數對錶格進行排序,以了解不同國家的情況。

注意我在下面使用梵蒂岡城純粹是因為那是我在列表中看到的第一個小國。正如@smci 指出的那樣,梵蒂岡城有一些問題可能使其與其他問題有所不同。因此,請在閱讀時牢記“小國”,因為我的問題適用於任何小國。

該表顯示梵蒂岡城是第 7 大最糟糕的國家,每百萬人中有 33,666 例病例。現在鑑於梵蒂岡城的總人口只有802人,我不知道我們能從這個數字中得到多少。當該國人口較少時,即使病例數的微小波動也會對每百萬病例數產生重大影響。作為一個人為的例子,考慮一個只有 1 個居民的虛構國家。如果那個人感染了病毒,那麼每百萬的病例數將是 1,000,000,這遠高於該表中的任何內容。

顯然梵蒂岡城是一個極端的例子,但還有其他一些人口較少的國家在名單上排名很高,我想同樣的問題也適用於他們。

那麼有沒有一種方法可以決定什麼是“太小”而不重要的人口?

如果這個問題不夠清楚,請解釋原因,而不是投反對票,因為我想理解它,如果我解釋得不夠好,我很樂意澄清。

我將描述統計學家如何解釋計數數據。通過一點點練習,你也可以做到。

基本分析

當案例隨機且獨立地出現時,它們發生的時間可以用泊松過程合理準確地建模。 這意味著出現在任何預定區間內的病例數具有泊松分佈。我們唯一需要記住的是它的方差等於它的期望。用不太專業的術語來說,這意味著該值可能與平均值不同的量(其*標準誤差)與平均值的平方根*成正比。** (有關計數數據的平方根和一些相關轉換的解釋和討論,請參閱為什麼建議對計數數據進行平方根轉換。)

在實踐中,我們通過使用觀察值來估計平均值。因此,

具有相同預期發生率的獨立事件計數的標準誤差是計數的平方根。

(對於非常小的計數,特別是零計數,存在對該規則的各種修改,但這在本申請中不應該成為問題。)

就梵蒂岡城而言,每百萬人中有 33,666 起案件的比率相當於

$$ \frac{33666}{10^6} \times 802 = 27 $$

案例。的平方根 $ 27 $ 是 $ 5 $ (我們通常不需要擔心這種分析的額外有效數字,這通常是在精神上和近似地完成的)。

等效地,這個標準誤差是 $ \sqrt{27} $ 案件出 $ 802 $ 人,相當於 $ 6500 $ 每百萬。因此,我們有理由說明

梵蒂岡城的病例率為 $ 33666\pm 6500 $ 每百萬。

這表明引用五個有效數字的利率是多麼愚蠢。最好通過限制 sig figs 來確認較大的標準誤差,如

觀察到的梵蒂岡城病例率為 $ 34000 \pm 6500 $ 每百萬。

(不要犯只取比率的平方根的錯誤! 在這個例子中,33,666 的平方根只有 183,這太小了。對於估計標準誤差**,平方根適用於計數,而不是比率。**)

一個好的經驗法則是在報告標準誤差時使用一個額外的有效數字,就像我在這裡所做的那樣(病例率四捨五入到最接近的千位,其 SE 被四捨五入到最接近的 100)。

稍微細緻一點的分析

病例不是獨立的:人們從其他人那裡捕捉到它們,並且由於人類不會像一瓶熱氣體中的原子一樣在世界各地飛來飛去,因此病例會成群結隊地發生。這違反了獨立性假設。那麼,真正發生的是,有效計數應該介於病例數和不同聚類數之間。我們無法知道後者:但它肯定小於(也許遠小於)病例數。因此,

當事件(正)相關時,平方根規則給出了標準誤差的下限。

您有時可以估計如何調整標準誤差。例如,如果您猜測案例以十個左右的集群發生,那麼您應該將標準誤乘以十的平方根。一般來說,

正相關事件計數的標準誤差非常粗略地是計數的平方根乘以典型集群大小的平方根。

這種近似是通過假設一個集群中的所有案例完全相關而產生的,否則任何兩個不同集群中的案例都是獨立的。

如果我們懷疑梵蒂岡城的病例是聚集的,那麼在最極端的情況下它是一個單一的聚集:計數是 $ 1, $ 它的平方根是 $ 1, $ 因此,標準誤差是*一個完整的集群:*即,大約 $ 27 $ 人們。如果您想謹慎地不要誇大數字的可靠性,那麼您可能會認為梵蒂岡城的比率介於略高於零和可能低於每百萬 70,000 之間( $ 1\pm 1 $ 集群的 $ 27 $ 的人口 $ 802 $ ).

引用自:https://stats.stackexchange.com/questions/493738

comments powered by Disqus