邏輯回歸和分數響應回歸有什麼區別?
據我所知,logistic模型和分數響應模型(frm)的區別在於frm為[0,1],而logistic為{0, 1}的因變量(Y)。此外,frm 使用準似然估計器來確定其參數。
通常,我們可以通過
glm
來獲取邏輯模型glm(y ~ x1+x2, data = dat, family = binomial(logit))
。對於 frm,我們更改
family = binomial(logit)
為family = quasibinomial(logit)
。我注意到我們也可以
family = binomial(logit)
用來獲取 frm 的參數,因為它給出了相同的估計值。請參閱以下示例library(foreign) mydata <- read.dta("k401.dta") glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata, family = binomial('logit')) summary(glm.bin)
返回:
Call: glm(formula = prate ~ mrate + age + sole + totemp, family = binomial("logit"), data = mydata) Deviance Residuals: Min 1Q Median 3Q Max -3.1214 -0.1979 0.2059 0.4486 0.9146 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.074e+00 8.869e-02 12.110 < 2e-16 *** mrate 5.734e-01 9.011e-02 6.364 1.97e-10 *** age 3.089e-02 5.832e-03 5.297 1.17e-07 *** sole 3.636e-01 9.491e-02 3.831 0.000128 *** totemp -5.780e-06 2.207e-06 -2.619 0.008814 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1166.6 on 4733 degrees of freedom Residual deviance: 1023.7 on 4729 degrees of freedom AIC: 1997.6 Number of Fisher Scoring iterations: 6
對於
family = quasibinomial('logit')
:glm.quasi <- glm(prate ~ mrate + age + sole + totemp, data = mydata ,family = quasibinomial('logit')) summary(glm.quasi)
返回:
Call: glm(formula = prate ~ mrate + age + sole + totemp, family = quasibinomial("logit"), data = mydata) Deviance Residuals: Min 1Q Median 3Q Max -3.1214 -0.1979 0.2059 0.4486 0.9146 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.074e+00 4.788e-02 22.435 < 2e-16 *** mrate 5.734e-01 4.864e-02 11.789 < 2e-16 *** age 3.089e-02 3.148e-03 9.814 < 2e-16 *** sole 3.636e-01 5.123e-02 7.097 1.46e-12 *** totemp -5.780e-06 1.191e-06 -4.852 1.26e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for quasibinomial family taken to be 0.2913876) Null deviance: 1166.6 on 4733 degrees of freedom Residual deviance: 1023.7 on 4729 degrees of freedom AIC: NA Number of Fisher Scoring iterations: 6
兩者的估計 Beta
family
值相同,但不同的是 SE 值。但是,要獲得正確的 SE,我們必須使用library(sandwich)
as in this post。現在,我的問題:
- 這兩個代碼有什麼區別?
- frm 即將獲得穩健的 SE 嗎?
如果我的理解不正確,請提出一些建議。
如果您的問題是:這兩個代碼有什麼區別?
一看
?glm
就說See family for details of family functions
,一看就?family
知道下面的描述:擬二項式和擬泊松族與二項式和泊松族的不同之處僅在於色散參數不固定為 1,因此它們可以模擬過度色散。
這也是您在輸出中看到的內容。這就是兩種型號/代碼之間的區別。
如果您的問題是:邏輯回歸和分數響應回歸之間有什麼區別?
正如您正確識別的那樣,如果您的因變量為 0 或 1,則該模型是一個邏輯模型。Papke 和 Wooldridge已經表明,您可以將這種形式的 GLM 用於分數以及參數的估計,但您需要計算穩健的標準誤差。這不是邏輯回歸所必需的,事實上,有些人認為您不應該在 probit/logit 模型中計算穩健的標準誤差。雖然這是一場不同的辯論。
理論基礎來自Gourieroux、Monfort 和 Trognon的著名論文在 1984 年的計量經濟學中。他們表明(在某些規律性條件下等)通過最大化屬於線性指數族的似然性獲得的最大似然性參數是對屬於線性指數族中任何其他似然性的參數的一致估計。所以,從某種意義上說,我們在這裡使用了邏輯分佈,儘管它並不完全正確,但參數對於我們希望獲得的參數仍然是一致的。因此,如果您的問題源於觀察到我們使用相同的似然函數來估計邏輯和分數響應模型,除了我們交換因變量的性質,那麼這就是直覺。