T-Test
應該如何解釋不同樣本量的均值比較?
以網站上的圖書評級為例。Book A 被 10,000 人評分,平均評分為 4.25,方差. 同樣,書 B 由 100 人評分,評分為 4.5.
現在由於書 A 的樣本量很大,“平均穩定”為 4.25。現在對於 100 人來說,如果更多的人閱讀 B 書,平均評分可能會下降到 4 或 4.25。
- 應該如何解釋來自不同樣本的均值的比較以及可以/應該得出的最佳結論是什麼?
例如 - 我們真的可以說書 B 比書 A 好嗎?
您可以使用 t 檢驗來評估均值是否存在差異。不同的樣本量不會對 t 檢驗造成問題,並且不需要特別小心地解釋結果。最終,您甚至可以將單個觀察結果與具有已知分佈、均值和 SD 的無限群體進行比較;例如,智商為 130 的人比 97.7% 的人聰明。不過要注意的一件事是,對於給定的(即總樣本量),如果組是相等的;由於組大小高度不平等,每次額外觀察都不會獲得那麼多額外的分辨率。
為了澄清我關於權力的觀點,這裡有一個為 R 編寫的非常簡單的模擬:
set.seed(9) # this makes the simulation exactly reproducible power5050 = vector(length=10000) # these will store the p-values from each power7525 = vector(length=10000) # simulated test to keep track of how many power9010 = vector(length=10000) # are 'significant' for(i in 1:10000){ # I run the following procedure 10k times n1a = rnorm(50, mean=0, sd=1) # I'm drawing 2 samples of size 50 from 2 normal n2a = rnorm(50, mean=.5, sd=1) # distributions w/ dif means, but equal SDs n1b = rnorm(75, mean=0, sd=1) # this version has group sizes of 75 & 25 n2b = rnorm(25, mean=.5, sd=1) n1c = rnorm(90, mean=0, sd=1) # this one has 90 & 10 n2c = rnorm(10, mean=.5, sd=1) power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value # here t-tests are run & power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value # the p-values are stored power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value # for each version } mean(power5050<.05) # this code counts how many of the p-values for [1] 0.7019 # each of the versions are less than .05 & mean(power7525<.05) # divides the number by 10k to compute the % [1] 0.5648 # of times the results were 'significant'. That mean(power9010<.05) # gives an estimate of the power [1] 0.3261
請注意,在所有情況下,但在第一種情況下&,在第二種情況下&, 在最後一種情況下和. 進一步注意,標準化平均差/數據生成過程在所有情況下都是相同的。然而,對於 50-50 歲的樣本,測試在 70% 的時間裡“顯著”,而在 75-25 歲的人群中,功效為 56%,而在 90-10 歲的人群中只有 33%。
我通過類比來考慮這一點。如果你想知道一個長方形的面積,並且周長是固定的,那麼如果長寬相等(即長方形是正方形),面積就會最大化。另一方面,隨著長度和寬度的發散(隨著矩形變長),面積縮小。