權重和偏移量能否在泊松回歸中產生類似的結果?
在第 1.83 段的“廣義線性模型從業者指南”中指出:
“在泊松乘法 GLM 的特定情況下,可以證明,使用等於暴露對數的偏移項對索賠計數進行建模,與在先前權重設置為等於每個觀察的暴露的情況下對索賠頻率建模產生相同的結果。 "
我無法找到有關此結果的任何進一步參考,因此我進行了一些經驗測試,在這些測試中我無法找到該陳述正確的證據。任何人都可以提供一些關於為什麼這個結果可能是正確/錯誤的見解。
僅供參考,我使用以下 R 代碼來測試假設,在其中我無法為提到的兩個案例獲得類似的結果:
n=1000 m=10 # Generate random data X = matrix(data = rnorm(n*m)+1, ncol = m, nrow = n) intercept = 2 coefs = runif(m) offset = runif(n) ## DGP: exp of Intercept + linear combination X variables + log(offset) mu = exp(intercept + X%*%coefs + log(offset)) y = rpois(n=n, lambda=mu) df = data.frame('y'=y, 'X'=X, 'offset' = offset) formula = paste("y ~",paste(colnames(df)[grepl("X", colnames(df))], collapse = "+")) #First model using log(offset) as offset fit1 = glm(formula, family = "poisson", df, offset = log(offset)) #Second model using offset as weights for individual observations fit2 = glm(formula, family = "poisson", df, weights = offset) #Third model using poisson model on y/offset as reference dfNew = df dfNew$y = dfNew$y/offset fit3 = glm(formula, family = "poisson", dfNew) #Combine coefficients with the true coefficients rbind(fit1$coefficients, fit2$coefficients, fit3$coefficients, c(intercept,coefs))
運行此代碼產生的係數估計值如下:
> (Intercept) X.1 X.2 X.3 X.4 X.5 X.6 [1,] 1.998277 0.2923091 0.4586666 0.1802960 0.11688860 0.7997154 0.4786655 [2,] 1.588620 0.2708272 0.4540180 0.1901753 0.07284985 0.7928951 0.5100480 [3,] 1.983903 0.2942196 0.4593369 0.1782187 0.11846876 0.8018315 0.4807802 [4,] 2.000000 0.2909240 0.4576965 0.1807591 0.11658183 0.8005451 0.4780123 X.7 X.8 X.9 X.10 [1,] 0.005772078 0.9154808 0.9078758 0.3512824 [2,] -0.003705015 0.9117014 0.9063845 0.4155601 [3,] 0.007595660 0.9181014 0.9076908 0.3505173 [4,] 0.005881960 0.9150350 0.9084375 0.3511749 >
我們可以觀察到係數不相同。
(使用您的 R 代碼,您可以將“poisson”替換為“quasipoisson”以避免生成所有警告。導入的任何其他內容都不會改變。請參見下面的 (*))。您的參考使用術語“乘法 glm”,我認為它僅表示帶有日誌鏈接的 glm,因為可以將日誌鏈接視為乘法模型。您自己的示例表明該聲明是錯誤的,至少在我們解釋它時(因為估計的參數不相等)。你可以寫信給作者,問他們是什麼意思。下面我將論證為什麼這種說法是錯誤的。
讓是泊松參數和權重。讓是沒有偏移的線性預測器,然後是具有偏移的線性預測器。泊松概率函數是
那麼具有偏移量的模型的對數似然函數變為
而具有權重的模型的對數似然函數變為
這顯然不一樣。所以這些作者的意思我不清楚。 (*) 借助 R
glm
函數的注意事項:非“NULL”“權重”可用於表示不同的觀測值具有不同的離散度(“權重”中的值與離散度成反比);或者等效地,當“權重”的元素是正整數 w_i 時,每個響應 y_i 是 w_i 單位權重觀測值的平均值。對於二項式 GLM,當響應是成功的比例時,先驗權重用於給出試驗次數:它們很少用於 Poisson GLM。
研究權重參數的含義解釋了這一點,它對泊松族函數沒有什麼意義,它假設一個恆定的尺度參數而權重參數修改. 這確實賦予了 quasiposson 家族函數更多的意義。請參閱R 中 glm 和 lm 函數中“權重”輸入 的答案那裡給出的答案也有助於了解為什麼加權情況下的可能性採用上面給出的形式。
這裡給出的答案可能是相關的: 泊松率回歸如何等於具有相應偏移項的泊松回歸? 並且非常有趣。