Statistical-Significance

具有二分變量的兩組的顯著性檢驗

  • March 25, 2021

我有一個 2x2 表,其中有兩組獨立的人在調查中回答是或否:

你能幫忙找到一個可以在這些數字上運行的測試,看看兩組之間是否存在統計顯著性(如果存在)?

BruceET 提供了一種分析此表的方法。對於 2 x 2 表有幾個測試,它們都是漸近等效的,這意味著如果有足夠的數據,所有測試都會給你相同的答案。我在這裡向他們展示 R 代碼以供後代使用。

在我的回答中,我將轉置表格,因為我發現將組作為列和結果作為行更容易。

那麼表是

我將此表的元素引用為

$ N $ 將是所有元素的總和 $ N = a+b+c+d $ .

卡方檢驗

也許對 2 x 2 表最常見的測試是卡方測試。粗略地說,卡方檢驗的原假設是每個組中回答“是”的人的比例相同,特別是在完全忽略組的情況下回答“是”的人的比例相同。

檢驗統計量為

$$ X^2_P = \dfrac{(ad-bc)^2N}{n_1n_2m_1m_2} \sim \chi^2_1 $$

這裡 $ n_i $ 是列總數和 $ m_i $ 是行總計。該檢驗統計量漸近分佈為具有一個自由度的卡方(因此得名)。

坦率地說,數學並不重要。大多數軟件包,如 R,很容易實現這個測試。

m = matrix(c(350,1250, 1700, 3800), nrow=2)
chisq.test(m, correct = F)
   Pearson's Chi-squared test

data:  m
X-squared = 49.257, df = 1, p-value = 2.246e-12



這樣correct=FR 實現了我編寫的測試,並且不應用對小樣本有用的連續性校正。這裡的 p 值非常小,因此我們可以得出結論,每個組中回答“是”的人的比例是不同的。

比例測試

比例檢驗類似於卡方檢驗。讓 $ \pi_i $ 是在組中回答是的概率 $ i $ . 比例檢驗檢驗零 $ \pi_1 = \pi_2 $ .

簡而言之,該測試的測試統計量是

$$ z = \dfrac{p_1-p_2}{\sqrt{\dfrac{p_1(1-p_1)}{n_1} + \dfrac{p_2(1-p_2)}{n_2}}} \sim \mathcal{N}(0,1) $$

再次, $ n_i $ 是列總數和 $ p_1 = a/n_1 $ 和 $ p_2=b/n_2 $ . 該檢驗統計量具有標準正態漸近分佈。如果你的選擇是 $ p_1 \neq p_2 $ 那麼在大多數情況下,您希望此檢驗統計量的絕對值大於 1.96 以拒絕空值。

在 R 中

# Note that the n argument is the column sums

prop.test(x=c(350, 1700), n=c(1600, 5500), correct = F)
data:  c(350, 1700) out of c(1600, 5500)
X-squared = 49.257, df = 1, p-value = 2.246e-12
alternative hypothesis: two.sided
95 percent confidence interval:
-0.11399399 -0.06668783
sample estimates:
  prop 1    prop 2 
0.2187500 0.3090909 

請注意,X-squared此檢驗輸出中的統計量與卡方檢驗相同。有一個很好的理由,我不會在這裡談論。另請注意,此檢驗提供了比例差異的置信區間,這是卡方檢驗的額外優勢。

費雪精確檢驗

Fisher 對數量的精確檢驗條件 $ n_1 = a+c $ 和 $ m_1 = a + b $ . 這個測試的​​null是每組成功的概率是一樣的, $ \pi_1 = \pi_2 $ ,如比例檢驗。檢驗推導中的實際零假設是關於優勢比的,但現在這並不重要。

觀察提供的表格的確切概率是

$$ p = \dfrac{n_1! n_2! m_1! m_2!}{N! a! b! c! d!} $$

約翰拉欽寫道

因此,觀察到的表的概率可以被認為是由一組 $ N $ 誰的對象 $ m_1 $ 有積極的反應,與 $ a $ 這些是從 $ n_1 $ 第 1 組的受試者和 $ b $ 從其中 $ n_2 $ 第 2 組中的受試者( $ a+b=m_1 $ , $ n_1 + n_2 = N $ )。

重要的是,這不是 p 值。就是觀察這張表的概率。為了計算 p 值,我們需要總結觀察表的概率,這些表比這個更極端。

幸運的是,R 為我們做到了這一點

m = matrix(c(350,1250, 1700, 3800), nrow=2)
fisher.test(m)

   Fisher's Exact Test for Count Data

data: m
p-value = 1.004e-12
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.5470683 0.7149770
sample estimates:
odds ratio 
0.6259224 

請注意,結果是關於優勢比的,而不是關於每組中的概率。同樣值得注意的是,同樣來自拉欽,

Fisher-Irwin 精確檢驗被批評為過於保守,因為其他無條件檢驗已被證明產生較小的 p 值,因此更強大。

當數據很大時,這一點變得沒有意義,因為您可能有足夠的能力來檢測微小的影響,但這完全取決於您要測試的內容(就像它總是做的那樣)。


到目前為止,我們已經研究了對這類數據最流行的測試。以下測試等同於前兩個測試,但可能鮮為人知。為了完整起見,我在這裡介紹它們。

科克倫試驗

檢驗統計量為

$$ X^2_u = \dfrac{\dfrac{n_2a-n_1b}{N}}{\dfrac{n_1n_2m_1m_2}{N^3}} \sim \chi^2_1 $$

在 R 中


m = matrix(c(350,1250, 1700, 3800), nrow=2)
a = 350 
b = 1700
c = 1250
d = 3800
N = a+b+c+d
n1 = a+c
n2 = b+d
m1 =a+b
m2 =c+d
X = ((n2*a-n1*b)/N)^2 /((n1*n2*m1*m2)/N^3)

# Look familiar?
X
>>>49.25663

p.val = pchisq(X,1, lower.tail=F)
p.val 
>>>[1] 2.245731e-12


條件 Mantel-Haenszel (CMH) 測試

CMH 測試(我想我在其他地方看到過這稱為 Cochran Mantel-Haenszel 測試)是一種測試,它以第一列總計和第一行總計為條件。

檢驗統計量為

$$ X^2_c = \dfrac{\left( a - \dfrac{n_1m_1}{N} \right)^2}{\dfrac{n_1n_2m_1m_2}{N^2(N-1)}} \sim \chi^2_1 $$

在 R 中


a = 350 
b = 1700
c = 1250
d = 3800
N = a+b+c+d
n1 = a+c
n2 = b+d
m1 =a+b
m2 =c+d


top =( a - n1*m1/N)^2
bottom = (n1*n2*m1*m2)/(N^2*(N-1))
X = top/bottom

X
>>>49.24969

p.val = pchisq(X, 1, lower.tail = F)
p.val
>>> [1] 2.253687e-12


似然比檢驗(LRT)(我個人最喜歡的)

LRT 比較了自由估計組比例的模型和僅估計單個比例的模型(與卡方檢驗不同)之間的對數似然差異。在我看來,這個測試有點矯枉過正,因為其他測試更簡單,但是為什麼不包括它呢?我個人喜歡它,因為測試統計數據非常令人滿意且易於記憶

和以前一樣,數學與我們的目的無關。檢驗統計量為

$$ X^2_G = 2 \log \left( \dfrac{a^a b^b c^c d^d N^N}{n_1^{n_1} n_2^{n_2} m_1^{m_1} m_2^{m_2}} \right) \sim \chi^2_1 $$

在 R 中使用一些應用代數來防止溢出



a = 350 
b = 1700
c = 1250
d = 3800
N = a+b+c+d
n1 = a+c
n2 = b+d
m1 =a+b
m2 =c+d

top = c(a,b,c,d,N)
bottom = c(n1, n2, m1, m2) 

X = 2*log(exp(sum(top*log(top)) - sum(bottom*log(bottom))))

# Very close to other tests
X
>>>[1] 51.26845

p.val = pchisq(X, 1, lower.tail=F)
p.val
>>>1] 8.05601e-13


請注意,LRT 和其他測試的測試統計數據存在差異。已經註意到,該檢驗統計量以比卡方檢驗統計量或 Cochran 檢驗統計量更慢的速度收斂到漸近卡方分佈。

我使用什麼測試

我的建議:比例測試。它等效於卡方檢驗*,並且*具有以下好處:a) 可直接根據風險差異進行解釋,b) 為這種差異提供置信區間(您應該始終報告)。

我沒有包括這些測試的理論動機,儘管理解這些並不是必要的,但在我自己看來很吸引人。

如果您想知道我從哪裡得到所有這些信息,John Lachin 的《生物統計學方法 - 相對風險評估》一書在第 2 章中花了很長時間向您解釋所有這些。

引用自:https://stats.stackexchange.com/questions/515699

comments powered by Disqus