Generalized-Linear-Model
為什麼負二項式回歸的皮爾遜殘差小於泊松回歸的殘差?
我有這些數據:
set.seed(1) predictor <- rnorm(20) set.seed(1) counts <- c(sample(1:1000, 20)) df <- data.frame(counts, predictor)
我進行了泊松回歸
poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson")
和負二項式回歸:
require(MASS) nb_counts <- glm.nb(counts ~ predictor, data = df)
然後我計算了泊松回歸的離散統計:
sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts) # [1] 145.4905
負二項式回歸:
sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts) # [1] 0.7650289
有沒有人能夠在不使用方程式的情況下解釋為什麼負二項式回歸的離差統計量遠小於泊松回歸的離差統計量?
這很簡單,但是“不使用方程式”是一個很大的障礙。我可以用文字來解釋,但這些文字必然反映方程式。我希望這對你來說是可以接受的/仍然有一些價值。(相關方程並不難。)
有幾種類型的殘差。 原始殘差只是觀察到的響應值(在您的情況下為
counts
)與模型的預測響應值之間的差異。 Pearson 殘差除以標準差(您正在使用的特定版本的廣義線性模型的方差函數的平方根)。與泊松分佈相關的標準差小於負二項式的標準差。因此,當您除以更大的分母時,商會更小。
此外,負二項式更適合您的情況,因為您
counts
將在總體中均勻分佈。也就是說,它們的方差將不等於它們的均值。