Generalized-Linear-Model

為計數數據確定適當模型的策略

February 23, 2011

決定使用哪種模型處理計數數據的適當策略是什麼？我已經計算了需要建模為多級模型的數據，並且（在此站點上）向我建議最好的方法是通過錯誤或 MCMCglmm。但是我仍在嘗試學習貝葉斯統計，我認為我應該首先嘗試將我的數據擬合為廣義線性模型並忽略數據的嵌套結構（這樣我才能對預期的結果有一個模糊的概念）。

大約 70% 的數據為 0，方差與均值的比率為 33。因此數據非常分散。

在嘗試了許多不同的選項（包括泊松、負二項式、準和零膨脹模型）後，我發現結果的一致性非常低（從一切都重要到沒有重要意義）。

我如何才能根據 0 通貨膨脹和過度分散就選擇哪種類型的模型做出明智的決定？例如，我怎麼能推斷出準泊鬆比負二項式更合適（反之亦然），我怎麼知道使用任何一個已經充分（或沒有）處理多餘的零？同樣，如果使用零膨脹模型，我如何評估不再存在過度分散？或者我應該如何在零膨脹泊松和零膨脹負二項式之間做出決定？

您始終可以通過查看它們的預測來比較計數模型（最好在保留集上）。J. Scott Long 以圖形方式討論了這一點（根據實際值繪製預測值）。他的教科書在這裡有詳細描述，但您也可以查看此文檔上的 6.4。

您可以使用 AIC 或 BIC 比較模型，還有一個稱為 Voung 測試的測試，我不太熟悉，但可以將零膨脹模型與非嵌套模型進行比較。這是一篇 Sas 論文，在第10頁對其進行了簡要描述，以幫助您入門。它也在 R發布中實現

引用自：https://stats.stackexchange.com/questions/7535

comments powered by Disqus

相關問答

泊松分佈的原始推導是什麼？

January 3, 2022

總和nnn帶參數的泊松隨機變量1n1nfrac 1 n

September 30, 2021

Normal-Distribution

將“標準泊松”轉換為任意泊松

July 7, 2021

哪些分佈具有未定義的均值但不對稱？

May 14, 2021

Machine-Learning

XGboost 和深度學習模型中 Tweedie 或泊松損失/目標函數的用途是什麼

October 19, 2020

R

泊松置信區間和 p 值之間的衝突

September 23, 2020