Regression

使用 Fisher 精確檢驗與 Logistic 回歸有什麼區別2×22×22 times 2表?

  • February 2, 2017

為一個表,對錶進行推斷的兩種方法是通過 Fisher 精確檢驗和 Logistic 回歸。

有人告訴我,使用 Fisher 精確檢驗,我們只對關聯的存在感興趣。但是對於邏輯回歸,我們對關聯的大小感興趣。

但是,我不明白為什麼。例如,在 R 中完成的 Fisher 精確檢驗中,它返回帶有置信區間的 Odds Ratio,而使用 Logistic 回歸,我們返回截距和斜率,這兩者都對應於對數賠率和對數賠率比率。

我的問題是,邏輯回歸在哪裡給了我們關聯的大小?我假設它在係數,但這只是對數優勢比,Fisher 的精確檢驗也得出. 有什麼區別?

我不確定您所說的“邏輯回歸給我們關聯的大小”是什麼意思,因為正如您所說,費希爾的精確檢驗做了非常相似的事情。但是,我仍然可以想到一些差異。

1.優勢比(OR)可能不同

報告的 OR 不必相同。至少對於 R 函數 fisher.test() 和 exact2x2() 與通過 glm() 函數的邏輯回歸相比,這是正確的。這裡有一個例子:

# generating data
set.seed(1)
n <- 200
x <- rbinom(n, 1, .5)
y <- rbinom(n, 1, .4)
df <- data.frame(x, y)

# OR from logistic regression
exp(coef(glm(y ~ x,family=binomial(link='logit'),data= df)))[2]
1.423077

# OR from fisher's exact test
tab <- table(x, y)
fisher.test(tab)$estimate
1.420543 # the methods "minlike", "central" and "blaker" in the exact2x2 function result in the same OR

# calculating OR by hand
(tab[1,1]/ tab[2,1])/ (tab[1,2]/ tab[2,2])
1.423077

Fisher 精確檢驗的 OR 與手動計算或邏輯回歸中報告的 OR 不同,因為它們是通過條件最大似然估計而不是通過無條件 MLE(樣本 OR)計算的。可能存在 OR 值比我的示例中的差異更大的情況。再一次,OR 對所提到的功能有所不同,但如果它們相同,則可能存在其他測試變體。

2. p 值不同

當然,p 值是不同的,因為在邏輯回歸的情況下,它們是由Wald 統計量和 az 值確定的,而不同類型的精確 Fisher 檢驗甚至在它們之間的 p 值也不同(最後一個鏈接打開 pdf)。之前使用的數據見這裡:

# p value from logistic regression
summary(glm(y ~ x,family=binomial(link='logit'),data= df))$coefficients["x", "Pr(>|z|)"]
0.2457947

# p value from fisher's exact test
library(exact2x2) # package covers different exact fisher's tests, see here https://cran.r-project.org/web/packages/exact2x2/index.html

exact2x2(tab,tsmethod="central")$p.value
0.3116818
exact2x2(tab,tsmethod="minlike")$p.value
0.290994 # which is same as fisher.test(tab)$p.value and exact2x2(tab,tsmethod="blaker")$p.value

在所有情況下,人們都會得出結論,沒有顯著影響。但是,正如您所看到的,差異並非微不足道(邏輯回歸為 0.246,而精確費希爾檢驗為 0.291 甚至 0.312)。因此,取決於您使用的是邏輯回歸還是費希爾精確檢驗,您可能會得出另一個結論,無論是否存在顯著影響。

3. 做出預測

打個比方:Pearson 相關和線性回歸在雙變量情況下非常相似,標準化回歸係數甚至與 Pearson 相關 r 相同。但是您無法通過相關性進行預測,因為它缺少截距。同樣,即使邏輯回歸和 Fisher 精確檢驗的優勢比相同(第 1 點中討論的情況並非如此),您也無法使用 Fisher 精確檢驗的結果進行預測。另一方面,邏輯回歸為您提供了進行預測所需的截距和係數。

4. 性能

前面提到的差異可能導致假設兩種測試的性能在功率和 I 類錯誤方面應該存在差異。有一些消息來源指出,費舍爾的精確檢驗過於保守。另一方面,應該記住標準邏輯回歸分析是漸近的,因此在觀察很少的情況下,您可能更喜歡 Fisher 精確檢驗

綜上所述,雖然這兩種測試都可以用於相同的數據,但存在一些差異會導致不同的結果,從而得出不同的結論。因此,這取決於您要使用兩種測試中的哪一種 - 在預測的情況下,它將是邏輯回歸,在樣本量較小的情況下,Fisher 的精確測試,等等。可能還有更多我遺漏的差異,但也許有人可以編輯和添加它們。

引用自:https://stats.stackexchange.com/questions/259635

comments powered by Disqus