Generalized-Linear-Model
為計數數據確定適當模型的策略
決定使用哪種模型處理計數數據的適當策略是什麼?我已經計算了需要建模為多級模型的數據,並且(在此站點上)向我建議最好的方法是通過錯誤或 MCMCglmm。但是我仍在嘗試學習貝葉斯統計,我認為我應該首先嘗試將我的數據擬合為廣義線性模型並忽略數據的嵌套結構(這樣我才能對預期的結果有一個模糊的概念)。
大約 70% 的數據為 0,方差與均值的比率為 33。因此數據非常分散。
在嘗試了許多不同的選項(包括泊松、負二項式、準和零膨脹模型)後,我發現結果的一致性非常低(從一切都重要到沒有重要意義)。
我如何才能根據 0 通貨膨脹和過度分散就選擇哪種類型的模型做出明智的決定?例如,我怎麼能推斷出準泊鬆比負二項式更合適(反之亦然),我怎麼知道使用任何一個已經充分(或沒有)處理多餘的零?同樣,如果使用零膨脹模型,我如何評估不再存在過度分散?或者我應該如何在零膨脹泊松和零膨脹負二項式之間做出決定?
您始終可以通過查看它們的預測來比較計數模型(最好在保留集上)。J. Scott Long 以圖形方式討論了這一點(根據實際值繪製預測值)。他的教科書在這裡有詳細描述,但您也可以查看此文檔上的 6.4。
您可以使用 AIC 或 BIC 比較模型,還有一個稱為 Voung 測試的測試,我不太熟悉,但可以將零膨脹模型與非嵌套模型進行比較。這是一篇 Sas 論文,在第10頁對其進行了簡要描述,以幫助您入門。它也在 R發布中實現