R
將二項式 GLMM (glmer) 擬合到作為比例或分數的響應變量
我希望有人可以幫助解決我認為相對簡單的問題,我想我知道答案,但沒有確認它已成為我無法確定的事情。
我有一些計數數據作為響應變量,我想測量該變量如何隨著某物的比例存在而變化。
更詳細地說,響應變量是在多個站點中存在的昆蟲物種的計數,例如,一個站點被採樣 10 次,該物種可能出現 4 次。
我想看看這是否與這些地點的整個植物群落中一組植物物種的比例存在相關。
這意味著我的數據如下所示(這只是一個示例)
Site, insectCount, NumberOfInsectSamples, ProportionalPlantGroupPresence 1, 5, 10, 0.5 2, 3, 10, 0.3 3, 7, 9, 0.6 4, 0, 9, 0.1
數據還包括位置的隨機效應。
我想到了兩種方法,一種是線性模型(
lmer
),將昆蟲轉換為比例,例如lmer.model<-lmer(insectCount/NumberOfInsectSamples~ ProportionalPlantGroupPresence+(1|Location),data=Data)
第二個是二項式 GLMM (
glmer
) 例如glmer.model <- glmer(cbind(insectCount,NumberOfInsectSamples-insectCount)~ ProportionalPlantGroupPresence+(1|Location), data=Data,family="binomial")
我相信二項式 glmer 是正確的方法,但是它們會產生相當不同的結果。我似乎無法在網上找到明確的答案,但仍然感到有點不確定,並希望確保我沒有犯錯。
任何幫助或對此替代方法的見解將不勝感激。
二項式 GLMM 可能是正確的答案。
- 特別是對於少量到中等數量的樣本(在您的示例中為 9 和 10),響應變量的分佈可能是異方差的(方差不會是恆定的,特別是取決於系統方式的平均值)並且遠從正態性,以一種難以轉換的方式 - 特別是如果預測變量的某些值的比例接近 0 或 1。這使 GLMM 成為一個好主意。
- 你應該小心檢查/解釋過度分散。如果您在每個位置有一個觀察值(即數據框中的單個二項式樣本/行),那麼您的
(1|Site)
隨機效應將自動處理此問題(儘管請參閱 Harrison 2015 的警告說明)- 如果前面的假設是正確的(每個位置只有一個二項式樣本),那麼您也可以將其擬合為常規二項式模型(
glm(...,family=binomial)
–在這種情況下,您還可以使用準二項式模型(family=quasibinomial
)作為更簡單的替代方法解釋過度分散- 如果您願意,也可以將比例作為響應擬合您的 GLMM,如果您將
weights
參數設置為等於樣本數:glmer(insectCount/NumberOfInsectSamples~ProportionalPlantGroupPresence+ (1|Location), weights=NumberofInsectSamples, data=Data,family="binomial")
(這應該給出與
glmer()
您在問題中的擬合相同的結果)。Harrison, Xavier A. “觀察級隨機效應和 Beta-二項式模型的比較,用於對生態學和進化中二項式數據中的過度分散進行建模。” PeerJ 3(2015 年 7 月 21 日):e1114。doi:10.7717/peerj.1114。