R

將邏輯回歸與二元結果和預測器一起使用是否有意義?

  • March 13, 2018

我有一個二元結果變量 {0,1} 和一個預測變量 {0,1}。我的想法是,除非我包含其他變量併計算優勢比,否則進行邏輯是沒有意義的。

使用一個二元預測器,計算概率與優勢比是否足夠?

在這種情況下,您可以將數據折疊到

在哪裡是實例的數量和和. 假設有整體觀察。 如果我們擬合模型(在哪裡是我們的鏈接函數)我們會發現是成功率的 logit,當和是成功率的 logit,當. 換句話說,

讓我們檢查一下這是R.

n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)

tbl <- table(x=x,y=y)

mod <- glm(y ~ x, family=binomial())

# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])

# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])

所以邏輯回歸係數正是來自表格的比例變換。

結果是,如果我們有來自一系列伯努利隨機變量的數據,我們當然可以用邏輯回歸分析這個數據集,但事實證明這與直接分析結果列聯表沒有什麼不同。


我想從理論的角度評論為什麼這是有效的。當我們擬合邏輯回歸時,我們使用的模型是. 然後我們決定將均值建模為線性預測變量的變換, 或符號. 在我們的例子中,我們只有兩個唯一值,因此只有兩個唯一值, 說和. 由於我們的獨立假設,我們有

請注意我們如何使用, 反過來和, 是非隨機的:如果不是這種情況,那麼這些不一定是二項式的。 這意味著

這裡的關鍵見解:我們的伯努利房車是而我們的二項式房車是,但兩者的成功概率相同。就是為什麼這些列聯表比例與觀察級邏輯回歸估計相同的原因。這不僅僅是與表格的某種巧合:這是我們所做的分佈假設的直接結果。

引用自:https://stats.stackexchange.com/questions/333224

comments powered by Disqus