R

如何制定 GLM 的偏移量

  • October 1, 2016

我正在嘗試在 R 中為一些計數數據建立一個廣義線性模型。基本上,我在讓它們接受治療後計算了每單位的動物數量(對於所有單位,都有 6 週的暴露時間)。**也就是說,根據治療的不同,治療後動物的數量可能更多、更少或相同。**因為這些單位開始時有不同數量的動物,所以我可以使用比例,也可以使用治療後的實際計數,以初始動物數量作為偏移量。我聽說最後一個選項是有利的。

我已經看到,對於泊松模型,添加這樣的偏移量:offset(log(initial_no)). 但是我傾向於使用負二項式模型。然後將它的鏈接功能設置在偏移量前面嗎?我也見過offset(1|initial_no)。什麼時候使用這個詞?

我不知道您在哪裡聽說過,對於一些在初始數字之外倖存的個體來說,帶有偏移的泊鬆或負二項式比二項式模型更可取;我通常更喜歡二項式,因為它更接近我們認為正在發生的實際隨機過程。請注意,二項式模型將是二項式 GLM,

— 不同於計算比例n/N和使用線性模型(或類似的模型)。 然而,考慮到問題的(編輯版本)允許在期末有比期初更多的人,二項式模型(以及準二項式或貝塔二項式等變體)將不起作用,因為它們不允許增加數量。

在個人只能失去而不是獲得的典型情況下(不是你的情況),泊鬆或負二項式模型只有在倖存的比例(或死亡的比例,如果你量化死亡率而不是生存)小得多的情況下才會給出合理的答案大於 1。一般來說,隨著存活概率接近 1,存活人數的變化會變小;二項式模型自然地捕捉到了這種現象,而 Poisson / NB 模型則沒有。(隨著概率接近 0,兩個模型的方差都變小了。)

如果您確實想使用偏移計數模型,則合併偏移的方法在 Poisson 和 NB 模型之間沒有區別,兩者幾乎總是使用日誌鏈接。也就是說,模型可以寫成:

第二行也可以寫成(看起來像包含偏移量的回歸公式) ,這表明您正在建模作為生存的對數比例。在數量可以增加的情況下,將是正數,表示預期的數字比例增加的對數。 如果您碰巧決定使用身份鏈接(我通常不建議這樣做,因為在這種情況下,優化過程很容易嘗試 Poisson/NB 均值的負值,這可能會破壞計算),那麼您d 使用偏移量(不是) 以便, 所以表示數字的加性變化。雖然有時計算困難,但這確實具有概念意義……

NB 模型的一個可能優點是它考慮了過度離散(例如,生存概率的個體間差異),而二項式或泊松模型則沒有。您可以通過切換到 beta-binomial 或 quasi-binomial 模型在二項式世界中處理這個問題……

如果您使用 R,假設您的變量是n(倖存數字)、N(初始數字)、ttt(指定治療組的因子/分類變量),您將使用

  • glm(n/N~ttt, family=binomial, weights=N)或者
  • glm(n/N~ttt, family=quasibinomial, weights=N)或者
  • glm(n~ttt+offset(log(N)), family=poisson)或者
  • MASS::glm.nb(n~ttt+offset(log(N)))

我從來沒有見過一個模型offset(1|initial_no)。什麼軟件正在使用這個…?

引用自:https://stats.stackexchange.com/questions/237963

comments powered by Disqus