Generalized-Linear-Model

Beta回歸和具有方差的準glm有什麼區別=μ(1-μ)μ(1-μ)mu(1-mu)?

  • August 22, 2016

首先讓我介紹一些背景;我將在最後總結我的問題。

Beta 分佈,由其均值參數化和, 擁有, 在哪裡是方差函數。

在 beta 回歸中(例如,使用 R 中的 betareg 包),回歸假設 beta 分佈誤差並估計固定效應和.

在 glm 回歸中,可以定義具有方差函數的“準”分佈. 所以這裡的模型假設誤差與 Beta 具有相同的方差函數。然後回歸估計準分佈的固定效應和“分散”。

我可能遺漏了一些重要的東西,但這兩種方法似乎本質上是相同的,也許只是它們的估計方法不同。

我在 R 中嘗試了這兩種方法,回歸到一個名為“Similarity”的 DV,它位於區間:

Call:
betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit")

Coefficients (mean model with logit link):
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.715175   0.067805  10.547   <2e-16 ***
N           -0.063806   0.003858 -16.537   <2e-16 ***
NK          -0.362716   0.015008 -24.168   <2e-16 ***
Step_ent    -0.696895   0.070233  -9.923   <2e-16 ***

Phi coefficients (precision model with identity link):
     Estimate Std. Error z value Pr(>|z|)    
(phi)  10.6201     0.2084   50.96   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Type of estimator: ML (maximum likelihood)
Log-likelihood:  3817 on 5 Df
Pseudo R-squared: 0.2633
Number of iterations: 18 (BFGS) + 1 (Fisher scoring) 


Call:
glm(formula = Similarity ~ N + NK + Step_ent, family = quasi(link = "logit", 
variance = "mu(1-mu)"), data = TapData)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.777451   0.069809  11.137   <2e-16 ***
N           -0.069348   0.003983 -17.411   <2e-16 ***
NK          -0.364702   0.016232 -22.468   <2e-16 ***
Step_ent    -0.704680   0.072491  -9.721   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasi family taken to be 0.0838547)

   Null deviance: 566.25  on 4974  degrees of freedom
Residual deviance: 422.76  on 4971  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

兩個模型的係數相似,標準誤也相似。這參數也相似:我假設分散參數(由 glm 報告)和有以下關係,在這種情況下,它們分別是 10.6201 和 10.9254。

但是,這些值都不相同。

這是因為這兩種方法中唯一真正不同的是它們的估計程序嗎?還是我缺少一些更根本的區別?另外,有什麼理由比另一種方法更喜歡一種方法嗎?

您是正確的,均值和方差函數具有相同的形式。

這表明在非常大的樣本中,只要您沒有真正接近 1 或 0 的觀察值,它們就應該傾向於給出非常相似的答案,因為在這種情況下,觀察值將具有相似的相對權重。

但是在一些連續比例接近邊界的較小樣本中,差異可能會變得更大,因為兩種方法給出的相對權重會不同;如果獲得不同權重的點也相對有影響(在 x 空間中更極端),則在某些情況下差異可能會變得很大。

在 beta 回歸中,您將通過 ML 進行估計,並且在擬二項式模型的情況下 - 至少在 R 中估計了一個,請注意幫助中的以下評論:

擬二項式和擬泊松族與二項式和泊松族的不同之處僅在於色散參數不固定為 1,因此它們可以模擬過度色散。對於二項式情況,請參見 McCullagh 和 Nelder (1989, pp. 124-8)。儘管他們表明(在某些限制下)存在與準二項式模型中的均值成比例的方差模型,但請注意 glm 不計算該模型中的最大似然估計。S 的行為更接近準變體。

我認為在 betareg 你可以得到值,您也可以使用 GLM,因此在兩個擬合模型中,您可以比較每個觀測值的相對影響(/“權重”)對其自身擬合值的近似值(因為影響比率的其他分量應該取消,或幾乎如此)。這應該可以快速了解兩種方法對哪些觀察結果的看法最不同。[人們可能會更準確地做到這一點,具體做法是逐個調整觀察結果並查看每單位值變化的擬合變化]

請注意,betareg 小插圖在第 2 節末尾對這些模型之間的聯繫進行了一些討論。

引用自:https://stats.stackexchange.com/questions/231017

comments powered by Disqus