Count-Data

具有計數數據和過度分散的回歸中的泊鬆或準泊松?

  • January 9, 2012

我有計數數據(需求/報價分析,計算客戶數量,取決於 - 可能 - 許多因素)。我嘗試了具有正常誤差的線性回歸,但我的 QQ 圖不是很好。我嘗試了對答案的對數轉換:再一次,糟糕的QQ圖。

所以現在,我正在嘗試使用泊松錯誤進行回歸。使用包含所有重要變量的模型,我得到:

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

剩餘偏差大於剩餘自由度:我有過度離散。

我怎麼知道我是否需要使用準泊松?在這種情況下,準泊鬆的目標是什麼?我在 Crawley 的“The R Book”中讀到了這個建議,但我沒有看到這一點,也沒有看到我的案例有很大的改進。

當試圖確定你想要估計什麼樣的 glm 方程時,你應該考慮給定右手邊 (rhs) 變量的目標變量的期望值和給定 rhs 變量的目標變量的方差之間的合理關係。來自您的 Normal 模型的殘差與擬合值的圖可以對此有所幫助。使用泊松回歸,假設關係是方差等於期望值;相當嚴格,我想你會同意的。對於“標準”線性回歸,假設方差是恆定的,而與預期值無關。對於準泊松回歸,假設方差是均值的線性函數;對於負二項式回歸,二次函數。

但是,您不限於這些關係。“族”(“準”除外)的規範決定了均值-方差關係。我沒有 The R Book,但我想它有一個表格,顯示了家庭函數和相應的均值-方差關係。對於“準”族,您可以指定幾種均值-方差關係中的任何一種,甚至可以編寫自己的;請參閱R 文檔。通過為“準”模型中的均值方差函數指定非默認值,您可能會找到更好的擬合。

您還應該注意目標變量的範圍;在您的情況下,它是非負計數數據。如果你有很大一部分低值 - 0、1、2 - 連續分佈可能不會很好地擬合,但如果你不這樣做,那麼使用離散分佈就沒有多大價值。您很少將泊松分佈和正態分佈視為競爭對手。

引用自:https://stats.stackexchange.com/questions/20826

comments powered by Disqus