比例數據 - beta 分佈與具有二項分佈和 logit 鏈接的 GLM

November 10, 2014

我有一個漁業數據集，我已經為地圖上的每個網格單元計算了值。該值是該單元格中每個月/年的總捕魚組的比例。因此，我的值介於 0-1 之間，但不包括 0 和 1（範圍實際上非常偏斜，為：0.0005347594 到 0.1933216169）。我感興趣的是隨著時間的推移，靠近特定位置的釣魚組的比例是否更高。

我已經讀過有兩種方法可以做到這一點——要么是帶有二項式族和 logit 鏈接的 GLM，要么是 beta 回歸。

我在 R 中嘗試了這兩種方法：

二項式 GLM：
m1 <- glm(PercentTotalSets ~ factor(SetYear) + DayLength + DistTZCF + DistNWHI, 
         family = binomial(link='logit'), data = Totals_CellId) 
測試版：
BetaGLM <- betareg(PercentTotalSets ~ factor(SetYear) + DayLength + DistTZCF + DistNWHI, 
                  data = Totals_CellId ) 
使用二項式 GLM，我得到的結果與我運行具有 gamma 分佈的 GLM 時的結果非常不同（例如，DistNWHI在 p 值為 0.9 的情況下不顯著，而在它顯著之前）。通過 beta 回歸，我得到了與具有伽馬分佈的 GLM 非常相似的結果（例如，DistNWHI具有相似的 p 值是顯著的）。

我認為 beta 回歸是正確的方法，因為我沒有 0 或 1，我需要設置界限，但我不確定這是否正確。

我會很感激任何和所有的建議。

使用這種形式的計數數據，我實際上適合多項式模型（至少從 * 開始），因為分母中存在幾個分子 - 每個“+1”計數可能進入任何單元格（“集合”）。

（例如看這裡）

您需要除以的分母；該模型仍然適用於比例，但可變性取決於您用於獲得比例的分母。

一個特別的問題是你會同時依賴空間和時間（例如，相鄰位置和相鄰時間往往比更遠的位置或時間更相關 - 至少如果存在由此類影響引起的未建模變化)

擬合多項式模型後，您需要評估是否對方差和相關性進行了合理的建模——您可能需要混合模型 (GLMM)，並且可能還需要考慮潛在的剩餘過度離散。

您會在 CV 上找到多項關於多項式模型的討論。

另一種可能性是將計數建模為泊松，通過允許與您提到的變化相關的偏移量、因子或連續預測變量作為您按比例縮放的原因。

引用自：https://stats.stackexchange.com/questions/123443

比例數據 - beta 分佈與具有二項分佈和 logit 鏈接的 GLM

相關問答

指數分佈的隨機變量的指數分佈？

beta 分佈隨機變量的 argmax 分佈

計算兩個獨立比例之差的標準誤

如何從二元邏輯回歸模型中獲得兩個概率之間差異的置信區間？

Beta(1,1) 隨機變量的平方根

貝塔變量和均勻變量的組合分佈