Generalized-Linear-Model

比例數據 - beta 分佈與具有二項分佈和 logit 鏈接的 GLM

  • November 10, 2014

我有一個漁業數據集,我已經為地圖上的每個網格單元計算了值。該值是該單元格中每個月/年的總捕魚組的比例。因此,我的值介於 0-1 之間,但不包括 0 和 1(範圍實際上非常偏斜,為:0.0005347594 到 0.1933216169)。我感興趣的是隨著時間的推移,靠近特定位置的釣魚組的比例是否更高。

我已經讀過有兩種方法可以做到這一點——要么是帶有二項式族和 logit 鏈接的 GLM,要么是 beta 回歸。

我在 R 中嘗試了這兩種方法:

二項式 GLM:

m1 <- glm(PercentTotalSets ~ factor(SetYear) + DayLength + DistTZCF + DistNWHI, 
         family = binomial(link='logit'), data = Totals_CellId) 

測試版:

BetaGLM <- betareg(PercentTotalSets ~ factor(SetYear) + DayLength + DistTZCF + DistNWHI, 
                  data = Totals_CellId ) 

使用二項式 GLM,我得到的結果與我運行具有 gamma 分佈的 GLM 時的結果非常不同(例如,DistNWHI在 p 值為 0.9 的情況下不顯著,而在它顯著之前)。通過 beta 回歸,我得到了與具有伽馬分佈的 GLM 非常相似的結果(例如,DistNWHI具有相似的 p 值是顯著的)。

我認為 beta 回歸是正確的方法,因為我沒有 0 或 1,我需要設置界限,但我不確定這是否正確。

我會很感激任何和所有的建議。

使用這種形式的計數數據,我實際上適合多項式模型(至少從 * 開始),因為分母中存在幾個分子 - 每個“+1”計數可能進入任何單元格(“集合”)。

(例如看這裡

您需要除以的分母;該模型仍然適用於比例,但可變性取決於您用於獲得比例的分母。

  • 一個特別的問題是你會同時依賴空間和時間(例如,相鄰位置和相鄰時間往往比更遠的位置或時間更相關 - 至少如果存在由此類影響引起的未建模變化)

擬合多項式模型後,您需要評估是否對方差和相關性進行了合理的建模——您可能需要混合模型 (GLMM),並且可能還需要考慮潛在的剩餘過度離散。

您會在 CV 上找到多項關於多項式模型的討論。


另一種可能性是將計數建模為泊松,通過允許與您提到的變化相關的偏移量、因子或連續預測變量作為您按比例縮放的原因。

引用自:https://stats.stackexchange.com/questions/123443

comments powered by Disqus