Hypothesis-Testing

為什麼均值 ± 2*SEM(95% 置信區間)重疊,但 p 值為 0.05?

  • November 21, 2020

我有兩個列表的數據:

acol = [8.48, 9.82, 9.66, 9.81, 9.23, 10.35, 10.08, 11.05, 8.63, 9.52, 10.88, 10.05, 10.45, 10.0, 9.97, 12.02, 11.48, 9.53, 9.98, 10.69, 10.29, 9.74, 8.92, 11.94, 9.04, 11.42, 8.88, 10.62, 9.38, 12.56, 10.53, 9.4, 11.53, 8.23, 12.09, 9.37, 11.17, 11.33, 10.49, 8.32, 11.29, 10.31, 9.94, 10.27, 9.98, 10.05, 10.07, 10.03, 9.12, 11.56, 10.88, 10.3, 11.32, 8.09, 9.34, 10.46, 9.35, 11.82, 10.29, 9.81, 7.92, 7.84, 12.22, 10.42, 10.45, 9.33, 8.24, 8.69, 10.31, 11.29, 9.31, 9.93, 8.21, 10.32, 9.72, 8.95, 9.49, 8.11, 8.33, 10.41, 8.38, 10.31, 10.33, 8.83, 7.84, 8.11, 11.11, 9.41, 9.32, 9.42, 10.57, 9.74, 11.35, 9.44, 10.53, 10.08, 10.92, 9.72, 7.83, 11.09, 8.95, 10.69, 11.85, 10.19, 8.49, 9.93, 10.39, 11.08, 11.27, 8.71, 9.62, 11.75, 8.45, 8.09, 11.54, 9.0, 9.61, 10.82, 10.36, 9.22, 9.36, 10.38, 9.53, 9.2, 10.36, 9.38, 7.68, 9.99, 10.61, 8.81, 10.09, 10.24, 9.21, 10.17, 10.32, 10.41, 8.77]

bcol = [12.48, 9.76, 9.63, 10.86, 11.63, 9.07, 12.01, 9.52, 10.05, 8.66, 10.85, 9.87, 11.14, 10.59, 9.24, 9.85, 9.62, 11.54, 11.1, 9.38, 9.24, 9.68, 10.02, 9.91, 10.66, 9.7, 11.06, 9.27, 9.08, 11.31, 10.9, 10.63, 8.98, 9.81, 9.69, 10.71, 10.43, 10.89, 8.96, 9.74, 8.33, 11.45, 9.61, 9.59, 11.25, 9.44, 10.05, 11.63, 10.16, 11.71, 9.1, 9.53, 9.76, 9.33, 11.53, 11.59, 10.21, 10.68, 8.99, 9.44, 9.82, 10.35, 11.22, 9.05, 9.18, 9.57, 11.43, 9.4, 11.45, 8.39, 11.32, 11.16, 12.47, 11.62, 8.77, 11.34, 11.77, 9.53, 10.54, 8.73, 9.97, 9.98, 10.8, 9.6, 9.6, 9.96, 12.17, 10.01, 8.69, 8.94, 9.24, 9.84, 10.39, 10.65, 9.31, 9.93, 10.41, 8.5, 8.64, 10.23, 9.94, 10.47, 8.95, 10.8, 9.84, 10.26, 11.0, 11.22, 10.72, 9.14, 10.06, 11.52, 10.21, 9.82, 10.81, 10.3, 9.81, 11.48, 8.51, 9.55, 10.41, 12.17, 9.9, 9.07, 10.51, 10.26, 10.62, 10.84, 9.67, 9.75, 8.84, 9.85, 10.41, 9.18, 10.93, 11.41, 9.52]

上述列表的摘要如下:

N,   Mean, SD,   SEM,   95% CIs
137  9.92  1.08  0.092  (9.74, 10.1)
137  10.2  0.951 0.081  (10.0, 10.3)

上述數據的非配對 t 檢驗給出的p值為 0.05:

f,p = scipy.stats.ttest_ind(acol, bcol)
print(f, p)
-1.9644209241736 0.050499295018989004

我從這個頁面和其他頁面了解到,*平均值 ± 2 * SEM (由**SD/sqrt(N)*計算的平均值的標準誤差)給出了 95% 的置信區間 (CI) 範圍。

我還相信,如果 95% 的置信區間重疊,則 P 值將 > 0.05。

我將上述數據繪製為平均值±2 * SEM

在此處輸入圖像描述

95% 的置信區間是重疊的。那麼為什麼p值會達到顯著水平?

重疊只是一個(嚴格/不准確的)經驗法則

誤差線不重疊的點是兩點之間的距離等於 $ 2(SE_1+SE_2) $ . 因此,您正在測試某種標準化分數(距離除以標準誤差之和)是否大於 2。讓我們稱之為 $ z_{overlap} $

$$ z_{overlap} = \frac{\vert \bar{X}_1- \bar{X}_2 \vert}{SE_1+SE_2} \geq 2 $$

如果這 $ z_{overlap} \geq 2 $ 那麼誤差線不會重疊。

在此處輸入圖像描述


自變量線性和的標準差

將標準偏差(誤差)加在一起並不是計算線性和(參數 $ \bar{X}_1-\bar{X}_2 $ 可以被認為是一個線性和,其中兩者之一乘以一個因子 $ -1 $ ) 另見:不相關變量的總和

所以以下對於獨立的情況是正確的 $ \bar{X}_1 $ 和 $ \bar{X}_2 $ :

$$ \begin{array}{} \text{Var}(\bar{X}_1-\bar{X}_2) &=& \text{Var}(\bar{X}_1) + \text{Var}(\bar{X}2)\ \sigma{\bar{X}_1-\bar{X}2}^2 &=& \sigma{\bar{X}1}^2+\sigma{\bar{X}2}^2\ \sigma{\bar{X}_1-\bar{X}2} &=& \sqrt{\sigma{\bar{X}1}^2+\sigma{\bar{X}_2}^2}\ \text{S.E.}(\bar{X}_1-\bar{X}_2) &=& \sqrt{\text{S.E.}(\bar{X}_1)^2 + \text{S.E.}(\bar{X}_2)^2}\ \end{array} $$

但不是

$$ \text{S.E.}(\bar{X}_1-\bar{X}_2) \neq {\text{S.E.}(\bar{X}_1) + \text{S.E.}(\bar{X}_2)} $$


用於比較兩個樣本均值差異的“正確”公式

對於比較兩個總體均值差異的 t 檢驗,您應該使用類似的公式

  • 在最簡單的情況下: $$ t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{SE_1^2+SE_2^2}} $$ 這是我們認為方差不相等或樣本量相等的時候。
  • 如果樣本量不同並且您認為總體的方差相等,那麼您可以一起而不是單獨估計兩個樣本的方差,並使用許多公式之一來計算合併方差,例如

$$ s_p = \sqrt{\frac{(n_1-1)s_1^2 +(n_2-1)s_2^2}{n_1+n_2-2}} $$

和$$ t = \frac{\bar{X}_1 - \bar{X}_2}{s_p \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} $$

與 $ SE_1 = s_1/\sqrt{n_1} $ 和 $ SE_2 = s_2/\sqrt{n_2} $ 你得到

$$ t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{n_1+n_2}{n_1+n_2-2} \left( \frac{n_1-1}{n_2} SE_1^2 + \frac{n_2-1}{n_1} SE_2^2 \right)}} $$

請注意,該值 $ \sqrt{SE_1^2+SE_2^2} $ 小於 $ SE_1+SE_2 $ , 所以 $ t>z_{overlap} $ .

旁注:

  • 在合併方差的情況下,您可能會遇到一種情況(儘管這種情況很少見),即較大樣本的方差大於較小樣本的方差,然後有可能 $ t<z_{overlap} $ .
  • 而不是 z 值和 z 檢驗,您實際上正在做(應該做)一個 t 檢驗。因此,對於 t 檢驗,誤差條的置信區間所基於的水平(例如“95% 相當於標準誤差的 2 倍”)可能會有所不同。公平地說,要將蘋果與蘋果進行比較,您應該使用相同的標準並將誤差條的置信水平也基於 t 檢驗。因此,讓我們假設對於 t 檢驗,與 95% 相關的邊界水平也等於或小於 2(這是樣本量大於 60 的情況)。

如果這 $ t \geq 2 $ 那麼差異是顯著的(在 5% 的水平上)。

兩個變量之差的標準誤不是每個變量的標準誤之和。這個總和高估了差異的誤差,並且過於保守(經常聲稱沒有顯著差異)。

所以 $ t>z_{overlap} $ 並且在誤差條重疊時可能導致顯著差異。您不需要不重疊的誤差線來獲得顯著差異。這種重疊是一個更嚴格的要求,當 p 值為 $ \leq 0.05 $ (而且它通常是一個較低的 p 值)。

引用自:https://stats.stackexchange.com/questions/497338

comments powered by Disqus