邏輯回歸:伯努利與二項式響應變量
我想使用以下二項式響應和 $ X_1 $ 和 $ X_2 $ 作為我的預測者。
我可以按照以下格式呈現與伯努利響應相同的數據。
這兩個數據集的邏輯回歸輸出基本相同。偏差殘差和 AIC 是不同的。(在這兩種情況下,零偏差和殘餘偏差之間的差異是相同的 - 0.228。)
以下是 R 的回歸輸出。數據集稱為 binom.data 和 bern.data。
這是二項式輸出。
Call: glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, family = binomial, data = binom.data) Deviance Residuals: [1] 0 0 0 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.9649 21.6072 -0.137 0.891 X1Yes -0.1897 2.5290 -0.075 0.940 X2 0.3596 1.9094 0.188 0.851 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2.2846e-01 on 2 degrees of freedom Residual deviance: -4.9328e-32 on 0 degrees of freedom AIC: 11.473 Number of Fisher Scoring iterations: 4 Here is the Bernoulli output. Call: glm(formula = Success ~ X1 + X2, family = binomial, data = bern.data) Deviance Residuals: Min 1Q Median 3Q Max -1.6651 -1.3537 0.7585 0.9281 1.0108 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.9649 21.6072 -0.137 0.891 X1Yes -0.1897 2.5290 -0.075 0.940 X2 0.3596 1.9094 0.188 0.851 (Dispersion parameter for binomial family taken to be 1) Null deviance: 15.276 on 11 degrees of freedom Residual deviance: 15.048 on 9 degrees of freedom AIC: 21.048 Number of Fisher Scoring iterations: 4
我的問題:
- 我可以看到在這種特殊情況下,兩種方法之間的點估計和標準誤差是等效的。這種等價一般是真的嗎?
- 問題 #1 的答案如何在數學上得到證明?
- 為什麼偏差殘差和 AIC 不同?
- 是的。您可以從具有相同協變量的個體中聚合/去聚合 (?) 二項式數據。這是因為二項式模型的充分統計量是每個協變量向量的事件總數;而伯努利只是二項式的一個特例。直觀地說,構成二項式結果的每個伯努利試驗都是獨立的,因此將這些作為單個結果或單獨的單獨試驗計算之間應該沒有區別。
2)說我們有唯一的協變量向量, 每個都有一個二項式結果試驗,即
你已經指定了一個邏輯回歸模型,所以
儘管我們稍後會看到這並不重要。 該模型的對數似然是
我們將這一點最大化(在裡面條款)來得到我們的參數估計。 現在,考慮每個,我們將二項式結果分為正如您所做的那樣,單個伯努利/二元結果。具體來說,創建
也就是說,第一個為 1,其餘為 0。這正是你所做的——但你同樣可以做第一個為 0,其餘為 1,或任何其他排序,對嗎? 你的第二個模型說
使用相同的回歸模型如上。該模型的對數似然是
由於我們定義我們的方式s,這可以簡化為
這應該看起來很熟悉。 為了獲得第二個模型中的估計值,我們將其最大化. 這和第一個對數似然之間的唯一區別是術語, 這是常數關於,因此不會影響最大化,我們會得到相同的估計。
- 每個觀測值都有一個偏差殘差。在二項式模型中,它們是
在哪裡是您模型的估計概率。請注意,您的二項式模型已飽和(剩餘自由度為 0)並且具有完美擬合:對於所有的觀察,所以對所有人. 在伯努利模型中,
除了你現在將擁有偏差殘差(而不是與二項式數據一樣),這些都將是
或者
取決於是否或者, 顯然和上面的不一樣。即使你把這些加起來得到每個偏差殘差的總和,你不會得到相同的:
AIC 不同的事實(但偏差的變化不是)回到了常數項,即兩個模型的對數似然之間的差異。在計算偏差時,這被取消了,因為它在基於相同數據的所有模型中都是相同的。AIC 定義為
並且該組合項是年代: