Confidence-Interval

隨著樣本量的增加,在什麼情況下置信區間不會變得更好?

  • August 4, 2013

在一篇文中,我發現聲稱

“我相信 WG Cochrane 第一次指出(大約在 1970 年代),在觀測環境中的置信區間中,小樣本量會導致更好的覆蓋率,而足夠大的樣本提供接近於零的覆蓋率!”

現在我假設隨著樣本量的增加 CI 寬度應該接近 0,但是覆蓋率會同時惡化的想法對我來說並不令人信服。這種說法是否屬實,在什麼情況下?還是我看錯了?

我使用隨機正態分佈數據進行了模擬,樣本量從 10000 到 1000000(單樣本 t 檢驗,95% CI),每個樣本量運行 1000 次,並且對於更高的樣本量,覆蓋率並沒有變得更糟(相反,我發現預期的接近恆定的 ~5% 錯誤率)。

請注意“在觀察環境中”的限定。

檢查您引用引用的上下文(它所在的評論的子線程),看起來意圖是“在現實世界中”而不是在模擬中,並且可能不包括受控實驗.. . 在那種情況下,可能的意圖是推導出間隔的假設實際上並不完全成立。有許多因素會影響偏差——與小樣本的變異性相比,它們的影響很小——但通常不會隨著樣本量的增加而減小,而標準誤差會。

由於我們的計算沒有包含偏差,因此間隔縮小(如),任何不變的偏差,即使它很小,也會更大,使我們的區間越來越不可能包含真實值。

這是一個插圖 - 可能誇大了偏見 - 表明我認為 CI 覆蓋率隨著樣本量的增加而縮小的含義:

當存在偏差時,CI 覆蓋概率隨著樣本量的增加而縮小的圖表

當然,在任何特定樣本中,間隔都是隨機的——它會變寬或變窄,並相對於圖表向左或向右移動,因此在任何樣本大小下,它都有一些介於 0 和 1 之間的覆蓋概率,但有任何偏差將使其收縮為零增加。這是一個使用模擬數據在每個樣本大小處具有 100 個置信區間的示例(以透明度繪製,因此在更多區間覆蓋的情況下顏色更純正):

與上麵類似的圖,每個 n 有 10 個樣本 CI

引用自:https://stats.stackexchange.com/questions/66473

comments powered by Disqus