Logistic

邏輯回歸:伯努利與二項式響應變量

  • March 30, 2015

我想使用以下二項式響應和 $ X_1 $ 和 $ X_2 $ 作為我的預測者。

包含聚合數據的數據表

我可以按照以下格式呈現與伯努利響應相同的數據。

分類形式的數據表

這兩個數據集的邏輯回歸輸出基本相同。偏差殘差和 AIC 是不同的。(在這兩種情況下,零偏差和殘餘偏差之間的差異是相同的 - 0.228。)

以下是 R 的回歸輸出。數據集稱為 binom.data 和 bern.data。

這是二項式輸出。

   Call:
   glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, 
       family = binomial, data = binom.data)

   Deviance Residuals: 
   [1]  0  0  0

   Coefficients:
               Estimate Std. Error z value Pr(>|z|)
   (Intercept)  -2.9649    21.6072  -0.137    0.891
   X1Yes        -0.1897     2.5290  -0.075    0.940
   X2            0.3596     1.9094   0.188    0.851

   (Dispersion parameter for binomial family taken to be 1)

   Null deviance:  2.2846e-01  on 2  degrees of freedom
   Residual deviance: -4.9328e-32  on 0  degrees of freedom
   AIC: 11.473

   Number of Fisher Scoring iterations: 4

Here is the Bernoulli output.

   Call:
   glm(formula = Success ~ X1 + X2, family = binomial, 
              data = bern.data)

   Deviance Residuals: 
       Min       1Q   Median       3Q      Max  
   -1.6651  -1.3537   0.7585   0.9281   1.0108  

   Coefficients:
               Estimate Std. Error z value Pr(>|z|)
   (Intercept)  -2.9649    21.6072  -0.137    0.891
   X1Yes        -0.1897     2.5290  -0.075    0.940
   X2            0.3596     1.9094   0.188    0.851

   (Dispersion parameter for binomial family taken to be 1)

   Null deviance: 15.276  on 11  degrees of freedom
   Residual deviance: 15.048  on  9  degrees of freedom
   AIC: 21.048

   Number of Fisher Scoring iterations: 4

我的問題:

  1. 我可以看到在這種特殊情況下,兩種方法之間的點估計和標準誤差是等效的。這種等價一般是真的嗎?
  2. 問題 #1 的答案如何在數學上得到證明?
  3. 為什麼偏差殘差和 AIC 不同?
  1. 是的。您可以從具有相同協變量的個體中聚合/去聚合 (?) 二項式數據。這是因為二項式模型的充分統計量是每個協變量向量的事件總數;而伯努利只是二項式的一個特例。直觀地說,構成二項式結果的每個伯努利試驗都是獨立的,因此將這些作為單個結果或單獨的單獨試驗計算之間應該沒有區別。

2)說我們有唯一的協變量向量, 每個都有一個二項式結果試驗,即

你已經指定了一個邏輯回歸模型,所以

儘管我們稍後會看到這並不重要。 該模型的對數似然是

我們將這一點最大化(在裡面條款)來得到我們的參數估計。 現在,考慮每個,我們將二項式結果分為正如您所做的那樣,單個伯努利/二元結果。具體來說,創建

也就是說,第一個為 1,其餘為 0。這正是你所做的——但你同樣可以做第一個為 0,其餘為 1,或任何其他排序,對嗎? 你的第二個模型說

使用相同的回歸模型如上。該模型的對數似然是

由於我們定義我們的方式s,這可以簡化為

這應該看起來很熟悉。 為了獲得第二個模型中的估計值,我們將其最大化. 這和第一個對數似然之間的唯一區別是術語, 這是常數關於,因此不會影響最大化,我們會得到相同的估計。

  1. 每個觀測值都有一個偏差殘差。在二項式模型中,它們是

在哪裡是您模型的估計概率。請注意,您的二項式模型已飽和(剩餘自由度為 0)並且具有完美擬合:對於所有的觀察,所以對所有人. 在伯努利模型中,

除了你現在將擁有偏差殘差(而不是與二項式數據一樣),這些都將是

或者

取決於是否或者, 顯然和上面的不一樣。即使你把這些加起來得到每個偏差殘差的總和,你不會得到相同的:

AIC 不同的事實(但偏差的變化不是)回到了常數項,即兩個模型的對數似然之間的差異。在計算偏差時,這被取消了,因為它在基於相同數據的所有模型中都是相同的。AIC 定義為

並且該組合項是年代:

引用自:https://stats.stackexchange.com/questions/144121

comments powered by Disqus