Binomial-Distribution
在二項式模型中使用偏移量來解釋患者數量的增加
我提出的兩個相關問題。我有一個數據框,其中包含一列中的患者數量(範圍 10 - 17 名患者)和 0 和 1,顯示當天是否發生了事件。我正在使用二項式模型來回歸患者人數的事件概率。但是,我想調整一個事實,即當病人更多時,不可避免地會發生更多事件,因為當天病房的患者總時間會更高。
所以我使用這樣的偏移二項式模型(R代碼):
glm(Incident~Numbers, offset=Numbers, family=binomial, data=threatdata)
我的問題是:
- 可以在偏移量中使用完全相同的變量進行預測嗎?我想部分排除事件概率的補品增加,看看是否還有什麼剩下的,基本上。這對我來說是有道理的,但我會有點謹慎,以防我錯了。
- 是否正確指定了偏移量?我知道在泊松模型中它會讀取
offset=log(Numbers)
我不知道這裡是否有等價物,而且我似乎無法通過 Google 找到任何二項式偏移(主要問題是我不斷得到負二項式,這當然不好)。
如果您對病房 N 天的患者發生事故的概率感興趣,那麼您需要一個模型,例如:
mod1 <- glm(incident ~ 1, offset=patients.on.ward, family=binomial)
偏移量代表試驗,
incident
為 0 或 1,並且事件的概率是恆定的(在產生事件的趨勢中沒有異質性)並且患者不會相互作用導致事件(沒有傳染)。或者,如果事件發生的可能性很小,這適合您(或者您已經設定了事件計數的閾值而沒有向我們提及),那麼您可能更喜歡泊松公式log.patients.on.ward <- log(patients.on.ward) mod2 <- glm(incident ~ 1, offset=log.patients.on.ward, family=poisson)
相同的假設適用。記錄偏移量是因為病房中的患者人數具有比例/乘法效應。
擴展第二個模型,也許您認為僅僅由於患者數量增加,事件比預期的要多。也就是說,也許患者確實相互作用或者是異質的。所以你試試
mod3 <- glm(incident ~ 1 + log.patients.on.ward, family=poisson)
如果 上的係數與
log.patients.on.ward
固定在 中的 1 顯著不同mod2
,那麼您的無異質性和無傳染性假設確實可能有問題。雖然您當然無法區分這兩個(也無法將任何一個與其他缺失變量區分開來),但您現在確實可以估計病房患者數量的增加會增加多少事件發生率/概率,超出您的預期期待機會。在參數空間中,它的1-coef(mod3)[2]
區間可從confint
.或者,您可以直接使用對數數量及其係數。如果您只想使用病房中的患者數量來預測事故的概率,那麼這個模型將是一種簡單的方法。
問題
- 偏移量中有因變量可以嗎?對我來說,這聽起來是個非常糟糕的主意,但我不認為你必須這樣做。
- 泊松回歸模型中的偏移量
exposure
確實是log(exposure)
. 也許令人困惑的是,offset
在 R 的二項式回歸模型中使用基本上是表示試驗次數的方法。它總是可以被定義為cbind(incidents, patients.on.ward-incidents)
且沒有偏移的因變量替換。可以這樣想:在泊松模型中,它進入對數鏈接函數後面的右側,而在二項式模型中,它進入對數鏈接函數前面的左側。