Binomial-Distribution

在二項式模型中使用偏移量來解釋患者數量的增加

  • March 28, 2012

我提出的兩個相關問題。我有一個數據框,其中包含一列中的患者數量(範圍 10 - 17 名患者)和 0 和 1,顯示當天是否發生了事件。我正在使用二項式模型來回歸患者人數的事件概率。但是,我想調整一個事實,即當病人更多時,不可避免地會發生更多事件,因為當天病房的患者總時間會更高。

所以我使用這樣的偏移二項式模型(R代碼):

glm(Incident~Numbers, offset=Numbers, family=binomial, data=threatdata)

我的問題是:

  1. 可以在偏移量中使用完全相同的變量進行預測嗎?我想部分排除事件概率的補品增加,看看是否還有什麼剩下的,基本上。這對我來說是有道理的,但我會有點謹慎,以防我錯了。
  2. 是否正確指定了偏移量?我知道在泊松模型中它會讀取
offset=log(Numbers)

我不知道這裡是否有等價物,而且我似乎無法通過 Google 找到任何二項式偏移(主要問題是我不斷得到負二項式,這當然不好)。

如果您對病房 N 天的患者發生事故的概率感興趣,那麼您需要一個模型,例如:

mod1 <- glm(incident ~ 1, offset=patients.on.ward, family=binomial)

偏移量代表試驗,incident為 0 或 1,並且事件的概率是恆定的(在產生事件的趨勢中沒有異質性)並且患者不會相互作用導致事件(沒有傳染)。或者,如果事件發生的可能性很小,這適合您(或者您已經設定了事件計數的閾值而沒有向我們提及),那麼您可能更喜歡泊松公式

log.patients.on.ward <- log(patients.on.ward)
mod2 <- glm(incident ~ 1, offset=log.patients.on.ward, family=poisson)

相同的假設適用。記錄偏移量是因為病房中的患者人數具有比例/乘法效應。

擴展第二個模型,也許您認為僅僅由於患者數量增加,事件比預期的要多。也就是說,也許患者確實相互作用或者是異質的。所以你試試

mod3 <- glm(incident ~ 1 + log.patients.on.ward, family=poisson)

如果 上的係數與log.patients.on.ward固定在 中的 1 顯著不同mod2,那麼您的無異質性和無傳染性假設確實可能有問題。雖然您當然無法區分這兩個(也無法將任何一個與其他缺失變量區分開來),但您現在確實可以估計病房患者數量的增加會增加多少事件發生率/概率,超出您的預期期待機會。在參數空間中,它的1-coef(mod3)[2]區間可從confint.

或者,您可以直接使用對數數量及其係數。如果您只想使用病房中的患者數量來預測事故的概率,那麼這個模型將是一種簡單的方法。

問題

  1. 偏移量中有因變量可以嗎?對我來說,這聽起來是個非常糟糕的主意,但我不認為你必須這樣做。
  2. 泊松回歸模型中的偏移量exposure確實是log(exposure). 也許令人困惑的是,offset在 R 的二項式回歸模型中使用基本上是表示試驗次數的方法。它總是可以被定義為cbind(incidents, patients.on.ward-incidents)且沒有偏移的因變量替換。可以這樣想:在泊松模型中,它進入對數鏈接函數後面的右側,而在二項式模型中,它進入對數鏈接函數前面的左側。

引用自:https://stats.stackexchange.com/questions/25415

comments powered by Disqus