T-Test

應該如何解釋不同樣本量的均值比較?

  • June 29, 2012

以網站上的圖書評級為例。Book A 被 10,000 人評分,平均評分為 4.25,方差. 同樣,書 B 由 100 人評分,評分為 4.5.

現在由於書 A 的樣本量很大,“平均穩定”為 4.25。現在對於 100 人來說,如果更多的人閱讀 B 書,平均評分可能會下降到 4 或 4.25。

  • 應該如何解釋來自不同樣本的均值的比較以及可以/應該得出的最佳結論是什麼?

例如 - 我們真的可以說書 B 比書 A 好嗎?

您可以使用 t 檢驗來評估均值是否存在差異。不同的樣本量不會對 t 檢驗造成問題,並且不需要特別小心地解釋結果。最終,您甚至可以將單個觀察結果與具有已知分佈、均值和 SD 的無限群體進行比較;例如,智商為 130 的人比 97.7% 的人聰明。不過要注意的一件事是,對於給定的(即樣本量),如果組是相等的;由於組大小高度不平等,每次額外觀察都不會獲得那麼多額外的分辨率。

為了澄清我關於權力的觀點,這裡有一個為 R 編寫的非常簡單的模擬:

set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

 n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
 n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

 n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
 n2b = rnorm(25, mean=.5, sd=1)

 n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
 n2c = rnorm(10, mean=.5, sd=1)

 power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
 power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
 power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261

請注意,在所有情況下,但在第一種情況下&,在第二種情況下&, 在最後一種情況下和. 進一步注意,標準化平均差/數據生成過程在所有情況下都是相同的。然而,對於 50-50 歲的樣本,測試在 70% 的時間裡“顯著”,而在 75-25 歲的人群中,功效為 56%,而在 90-10 歲的人群中只有 33%。

我通過類比來考慮這一點。如果你想知道一個長方形的面積,並且周長是固定的,那麼如果長寬相等(即長方形是正方形),面積就會最大化。另一方面,隨著長度和寬度的發散(隨著矩形變長),面積縮小。

引用自:https://stats.stackexchange.com/questions/31326

comments powered by Disqus