R

邏輯回歸和分數響應回歸有什麼區別?

  • June 3, 2016

據我所知,logistic模型和分數響應模型(frm)的區別在於frm為[0,1],而logistic為{0, 1}的因變量(Y)。此外,frm 使用準似然估計器來確定其參數。

通常,我們可以通過glm來獲取邏輯模型glm(y ~ x1+x2, data = dat, family = binomial(logit))

對於 frm,我們更改family = binomial(logit)family = quasibinomial(logit)

我注意到我們也可以family = binomial(logit)用來獲取 frm 的參數,因為它給出了相同的估計值。請參閱以下示例

   library(foreign)
   mydata <- read.dta("k401.dta")

   glm.bin <- glm(prate ~ mrate + age + sole + totemp, 
                  data = mydata, family = binomial('logit'))
   summary(glm.bin)

返回:

   Call:
   glm(formula = prate ~ mrate + age + sole + totemp, 
       family = binomial("logit"), 
       data = mydata)
   
   Deviance Residuals: 
       Min       1Q   Median       3Q      Max  
   -3.1214  -0.1979   0.2059   0.4486   0.9146  
   
   Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
   (Intercept)  1.074e+00  8.869e-02  12.110  < 2e-16 ***
   mrate        5.734e-01  9.011e-02   6.364 1.97e-10 ***
   age          3.089e-02  5.832e-03   5.297 1.17e-07 ***
   sole         3.636e-01  9.491e-02   3.831 0.000128 ***
   totemp      -5.780e-06  2.207e-06  -2.619 0.008814 ** 
   ---
   Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1
   
   (Dispersion parameter for binomial family taken to be 1)
   
       Null deviance: 1166.6  on 4733  degrees of freedom
   Residual deviance: 1023.7  on 4729  degrees of freedom
   AIC: 1997.6
   
   Number of Fisher Scoring iterations: 6 

對於family = quasibinomial('logit')

   glm.quasi <- glm(prate ~ mrate + age + sole + totemp, 
    data = mydata
   ,family = quasibinomial('logit'))
   summary(glm.quasi)

返回:

   Call:
   glm(formula = prate ~ mrate + age + sole + totemp, 
       family = quasibinomial("logit"), 
       data = mydata)
   
   Deviance Residuals: 
       Min       1Q   Median       3Q      Max  
   -3.1214  -0.1979   0.2059   0.4486   0.9146  
   
   Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
   (Intercept)  1.074e+00  4.788e-02  22.435  < 2e-16 ***
   mrate        5.734e-01  4.864e-02  11.789  < 2e-16 ***
   age          3.089e-02  3.148e-03   9.814  < 2e-16 ***
   sole         3.636e-01  5.123e-02   7.097 1.46e-12 ***
   totemp      -5.780e-06  1.191e-06  -4.852 1.26e-06 ***
   ---
   Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1
   
   (Dispersion parameter for quasibinomial family taken to be 0.2913876)
   
       Null deviance: 1166.6  on 4733  degrees of freedom
   Residual deviance: 1023.7  on 4729  degrees of freedom
   AIC: NA
   
   Number of Fisher Scoring iterations: 6

兩者的估計 Betafamily值相同,但不同的是 SE 值。但是,要獲得正確的 SE,我們必須使用library(sandwich)as in this post

現在,我的問題:

  1. 這兩個代碼有什麼區別?
  2. frm 即將獲得穩健的 SE 嗎?

如果我的理解不正確,請提出一些建議。

如果您的問題是:這兩個代碼有什麼區別?

一看?glm就說See family for details of family functions,一看就?family知道下面的描述:

擬二項式和擬泊松族與二項式和泊松族的不同之處僅在於色散參數不固定為 1,因此它們可以模擬過度色散。

這也是您在輸出中看到的內容。這就是兩種型號/代碼之間的區別。

如果您的問題是:邏輯回歸和分數響應回歸之間有什麼區別?

正如您正確識別的那樣,如果您的因變量為 0 或 1,則該模型是一個邏輯模型。Papke 和 Wooldridge已經表明,您可以將這種形式的 GLM 用於分數以及參數的估計,但您需要計算穩健的標準誤差。這不是邏輯回歸所必需的,事實上,有些人認為您不應該在 probit/logit 模型中計算穩健的標準誤差。雖然這是一場不同的辯論。

理論基礎來自Gourieroux、Monfort 和 Trognon的著名論文在 1984 年的計量經濟學中。他們表明(在某些規律性條件下等)通過最大化屬於線性指數族的似然性獲得的最大似然性參數是對屬於線性指數族中任何其他似然性的參數的一致估計。所以,從某種意義上說,我們在這裡使用了邏輯分佈,儘管它並不完全正確,但參數對於我們希望獲得的參數仍然是一致的。因此,如果您的問題源於觀察到我們使用相同的似然函數來估計邏輯和分數響應模型,除了我們交換因變量的性質,那麼這就是直覺。

引用自:https://stats.stackexchange.com/questions/216122

comments powered by Disqus