Fishers-Exact-Test
Fisher 精確檢驗和超幾何分佈
我想更好地理解 Fisher 精確測試,所以我設計了以下玩具示例,其中 f 和 m 對應於男性和女性,n 和 y 對應於“蘇打水消費”,如下所示:
> soda_gender f m n 0 5 y 5 0
顯然,這是一個極大的簡化,但我不希望上下文妨礙。這裡我只是假設男性不喝蘇打水,女性喝蘇打水,想看看統計程序是否得出相同的結論。
當我在 R 中運行 Fisher 精確測試時,我得到以下結果:
> fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0
在這裡,由於 p 值為 0.007937,我們可以得出結論,性別和蘇打水消費是相關的。
我知道費希爾精確檢驗與超幾何分佈有關。所以我想用它來得到類似的結果。換句話說,你可以把這個問題看成如下:有10個球,其中5個被標記為“男”,5個被標記為“女”,你隨機抽取5個球,沒有放回,你看到0個男球. 這種觀察的機會是多少?為了回答這個問題,我使用了以下命令:
> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE) [1] 0.003968254
我的問題是:1)為什麼這兩個結果不同?2)我上面的推理有什麼不正確或不嚴謹的嗎?
費舍爾的精確檢驗通過調節表格邊距(在這種情況下,5 名男性和女性以及 5 名喝蘇打水的人和不喝酒的人)來工作。在原假設的假設下,觀察男性蘇打水飲用者、男性非蘇打水飲用者、女性蘇打水飲用者或女性非蘇打水飲用者的細胞概率均等可能 (0.25),因為邊際總計。
您用於 FET 的特定表格除了它的 converse 之外沒有其他表格,即 5 名女性不喝蘇打水和 5 名男性喝蘇打水,這在原假設下“至少不太可能”。因此,您會注意到,將您在超幾何密度中獲得的概率加倍會得到 FET p 值。