Regression

如何處理泊松回歸中的過度離散:準似然、負二項式 GLM 或主題級隨機效應?

  • March 15, 2016

我遇到了三個處理泊松響應變量和所有固定效應起始模型中的過度分散的建議:

  1. 使用準模型;
  2. 使用負二項式 GLM;
  3. 使用具有主題級別隨機效應的混合模型。

但實際選擇哪個,為什麼?其中有什麼實際的標準嗎?

泊松回歸只是一個 GLM:

人們經常談到應用泊松回歸的參數原理。事實上,泊松回歸只是一個 GLM。這意味著當滿足兩個假設時,泊松回歸適用於任何類型的數據(計數、評級、考試分數、二元事件等):1)平均結果的對是預測變量的線性組合,2)結果的方差等於均值。這兩個條件分別稱為均值模型和均值方差關係。

通過對預測變量使用一組複雜的調整,可以稍微放寬平均模型假設。這很好,因為鏈接函數會影響參數的解釋;解釋的微妙之處在於回答科學問題和完全避開統計分析的消費者之間的區別。在另一篇SE 帖子中,我討論了對數變換對解釋的有用性。

然而,事實證明,第二個假設(均值-方差關係)對推理有很強的影響。當均值-方差關係不正確時,參數估計沒有偏差。但是,標準誤、置信區間、p 值和預測都是錯誤校準的。這意味著您無法控制 I 類錯誤,並且您可能擁有次優能力。

如果可以放寬均值方差以使方差僅與均值成正比怎麼辦?負二項式回歸和 Quasipoisson 回歸就是這樣做的。

準泊松模型

Quasipoisson 模型不是基於可能性的。他們將“擬似然”最大化,這是泊松似然達到比例常數。該比例常數恰好是色散。分散被認為是令人討厭的範圍。雖然最大化例程提出了對令人討厭的參數的估計,但該估計僅僅是數據的產物,而不是任何可以推廣到總體的值。根據方差是否按比例小於或大於平均值,離散度僅用於“縮小”或“擴大”回歸參數的 SE。由於色散被視為令人討厭的參數,準泊松模型具有許多穩健的特性:數據實際上可以是異方差的(不滿足比例均值方差假設),甚至表現出小的依賴性來源,而均值模型不需要完全正確,但回歸參數的 95% CI 是漸近正確的。**如果您的數據分析目標是衡量一組回歸參數與結果之間的關聯,那麼準泊松模型通常是可行的方法。**這些模型的一個限制是它們無法產生預測區間,Pearson 殘差無法告訴您平均模型的準確程度,並且 AIC 或 BIC 等信息標準無法有效地將這些模型與其他類型的模型進行比較。

負二項式模型

將負二項式回歸理解為 2 參數泊松回歸是最有用的。均值模型與 Poisson 和 Quasipoisson 模型相同,其中結果的對數是預測變量的線性組合。此外,“尺度”參數模擬了一種均值-方差關係,其中方差僅與之前的均值成比例。然而,與準泊松模型不同,這種類型的模型是基於精確似然的過程. 在這種情況下,離散度是一個實際參數,對總體具有一定程度的普遍性。與準泊松相比,這引入了一些優勢,但在我看來,它強加了更多(不可測試的)假設。與擬泊松模型不同:數據必須獨立,均值模型必須正確,尺度參數必須在擬合值範圍內同方差才能獲得正確的推斷。然而,這些可以通過檢查 Pearson 殘差來進行評估,並且該模型產生可行的預測和預測區間,並且可以與信息標准進行比較。

負二項式概率模型來自 Poisson-Gamma 混合。也就是說,有一個未知的波動 Gamma 隨機變量“饋入”泊松率參數。由於 NB GLM 擬合是基於可能性的,因此通常有助於說明關於數據生成機制的先驗信念並將它們與手頭模型的概率原理聯繫起來。例如,如果我正在測試退出 24 小時耐力賽的賽車手的數量,我可能會認為環境條件都是我沒有測量的壓力源,因此會增加 DNF 的風險,例如影響輪胎的濕氣或低溫牽引力,因此存在旋轉和失事的風險。

依賴數據的模型:GLMM 與 GEE

泊松數據的廣義線性混合模型 (GLMM) 無法與上述方法進行比較。GLMM 回答不同的問題並用於不同的數據結構。在這裡,數據之間的依賴來源被明確測量。GLMMs 利用隨機截距和隨機斜率來解釋個體水平的異質性。這改變了我們的估計。隨機效應會修改模型的均值和方差,而不僅僅是上面討論的方差。

有兩種可能的關聯水平可以在相關數據中測量:總體水平(邊際)和個體水平(條件)。GLMM 聲稱測量個體水平(條件)關聯:也就是說,給定結果的所有個體水平貢獻者,預測變量組合的相對影響是什麼。例如,備考課程可能對在模範學校上學的孩子影響不大,而市中心的孩子可能會受益匪淺。在這種情況下,個體水平效應明顯更高,因為優勢兒童在積極暴露方面遠遠高於曲線。

如果我們天真地將準泊鬆或負二項式模型應用於相關數據,NB 模型將是錯誤的,而準泊松模型將是低效的。然而,GEE 擴展了準泊松模型,以顯式地模擬 GLMM 等依賴結構,但 GEE 測量邊際(總體水平)趨勢並獲得正確的權重、標準誤差和推理。

數據分析示例:

這篇文章已經太長了 :)本教程中的前兩個模型有一個很好的說明,如果您有興趣,還可以參考更多閱讀。有問題的數據涉及鱟的築巢習慣:雌性坐在巢中,雄性(衛星)依附在她身上。研究人員想要根據女性的特徵來衡量依附於女性的男性數量。我希望我已經強調了為什麼混合模型是不可比較的:如果你有依賴數據,你必須使用正確的模型來解決這些依賴數據試圖回答的問題,無論是 GLM 還是 GEE。

參考:

[1] Agresti,分類數據分析第 2 版

[2] Diggle,Heagerty,Liang,Zeger,縱向數據分析,第 2 版。

引用自:https://stats.stackexchange.com/questions/201903

comments powered by Disqus