在泊松模型中,使用時間作為協變量或偏移量有什麼區別?
我最近發現瞭如何使用(例如)時間的對數作為泊松回歸中的偏移量來模擬暴露隨時間的變化。
我知道偏移量對應於時間與係數 1 的協變量。
我想更好地理解使用時間作為偏移量或作為正常協變量(因此估計係數)之間的區別。在哪種情況下我應該使用一種方法或另一種方法?
升級:我不知道這是否有趣,但我使用重複 500 次的隨機拆分數據對這兩種方法進行了驗證,我注意到使用偏移方法會導致更大的測試錯誤。
偏移量可用於任何回歸模型,但在處理響應變量的計數數據時更為常見。偏移量只是一個變量,它被強制具有一個係數在模型中。(另請參閱這個出色的 CV 線程:何時在泊松回歸中使用偏移量?)
當與計數數據正確使用時,這將讓您建模rate而不是counts。如果這很有趣,那麼它就是要做的事情。因此,這是最常使用偏移量的上下文。讓我們考慮一個帶有日誌鏈接(這是規範鏈接)的 Poisson GLiM。
(如您所見,正確使用偏移量的關鍵是使偏移量,而不是.)
當係數為不是,您不再是費率建模。但是由於提供更大的靈活性來擬合不使用的數據和模型因為偏移量通常更適合(儘管它們也可能過擬合)。
您是否應該對計數或費率進行建模實際上取決於您的實質性問題是什麼。您應該對與您想知道的內容對應的模型進行建模。
至於它可能意味著什麼不應該,考慮一個例子,其中時間不是所討論的變量。想像一下研究不同醫院的手術並發症數量。一家醫院報告了更多的手術並發症,但他們可能會聲稱這種比較不公平,因為他們做了更多的手術。因此,您決定嘗試對此進行控制。您可以簡單地使用手術次數的日誌作為偏移量,這樣您就可以研究每次手術的並發症發生率。您還可以使用手術次數的日誌作為另一個協變量。假設係數與. 如果,那麼做更多手術的醫院的並發症發生率更高(也許是因為他們急於完成更多的工作)。如果,做得最多的醫院每次手術的並發症更少(也許他們有最好的醫生,所以做得更多,做得更好)。
如果所討論的變量是時間,那麼看看這會如何發生會稍微複雜一些。泊松分佈源於泊松過程,其中事件之間的時間呈指數分佈,因此與生存分析有著天然的聯繫。在生存分析中,發生事件的時間通常不會以指數形式分佈,但基線風險會隨著時間的推移而變大或變小。因此,考慮一個案例,您正在對在某個自然起點之後發生的事件數量進行建模。如果,這意味著事件的速度正在加快,而如果,這意味著事件的速度正在放緩。
對於前者的一個具體例子,想像一下在手術切除初始腫瘤後一段時間內計算癌細胞數量的掃描。對於某些患者,自手術以來已經過去了更多時間,您希望將其考慮在內。由於一旦癌症重新站穩腳跟,它將開始呈指數增長,自手術後無需額外治療,該比率將隨著時間的推移而增加。
對於後者的一個具體例子,考慮一下死於我們無法治療的疾病爆發的人數。起初,很多人死亡是因為他們更容易感染這種疾病,或者免疫系統已經受損等。隨著時間的推移,由於剩餘的人群對這種疾病的易感性降低,死亡率會下降。(對不起,這個例子太病態了。)