應該如何解釋不同樣本量的均值比較？

June 29, 2012

以網站上的圖書評級為例。Book A 被 10,000 人評分，平均評分為 4.25，方差. 同樣，書 B 由 100 人評分，評分為 4.5.

現在由於書 A 的樣本量很大，“平均穩定”為 4.25。現在對於 100 人來說，如果更多的人閱讀 B 書，平均評分可能會下降到 4 或 4.25。

應該如何解釋來自不同樣本的均值的比較以及可以/應該得出的最佳結論是什麼？

例如 - 我們真的可以說書 B 比書 A 好嗎？

您可以使用 t 檢驗來評估均值是否存在差異。不同的樣本量不會對 t 檢驗造成問題，並且不需要特別小心地解釋結果。最終，您甚至可以將單個觀察結果與具有已知分佈、均值和 SD 的無限群體進行比較；例如，智商為 130 的人比 97.7% 的人聰明。不過要注意的一件事是，對於給定的（即總樣本量），如果組是相等的；由於組大小高度不平等，每次額外觀察都不會獲得那麼多額外的分辨率。

為了澄清我關於權力的觀點，這裡有一個為 R 編寫的非常簡單的模擬：
set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

 n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
 n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

 n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
 n2b = rnorm(25, mean=.5, sd=1)

 n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
 n2c = rnorm(10, mean=.5, sd=1)

 power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
 power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
 power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261
請注意，在所有情況下，但在第一種情況下&，在第二種情況下&, 在最後一種情況下和. 進一步注意，標準化平均差/數據生成過程在所有情況下都是相同的。然而，對於 50-50 歲的樣本，測試在 70% 的時間裡“顯著”，而在 75-25 歲的人群中，功效為 56%，而在 90-10 歲的人群中只有 33%。

我通過類比來考慮這一點。如果你想知道一個長方形的面積，並且周長是固定的，那麼如果長寬相等（即長方形是正方形），面積就會最大化。另一方面，隨著長度和寬度的發散（隨著矩形變長），面積縮小。

引用自：https://stats.stackexchange.com/questions/31326

應該如何解釋不同樣本量的均值比較？

相關問答

對於所有類型的分佈，均值的 CDF 是否始終為 0.5？

我可以對非常小的樣本使用 Mann-Whitney U 檢驗嗎？

74% 概率高於平均值的示例分佈

一個擁有非正態分佈數據的統計學家怎麼能比一個只有平均值的統計學家猜得好呢？

為什麼當平均值看起來真的不同時，t.test() 的 p 值在統計上不顯著

為什麼這個估計器不是無偏的？