R

泊松率回歸如何等於具有相應偏移項的泊松回歸?

  • February 26, 2017

我不明白權重在“加權泊松回歸”中的作用。究竟是什麼被加權?是觀察對模型的對數似然的貢獻,還是其他什麼?

在以下兩個熱門話題中,

泊松/負二項式回歸中的偏移量在哪裡?

何時在泊松回歸中使用偏移量?

評論員建立了具有顯式偏移的泊松回歸之間的等價性(例如曝光時間)等式:

和帶權重的加權泊松回歸(至少在 R 中):

等效地,其中一個線程用一個例子證明估計的係數是相同的。

但是,我不明白第二次回歸中的權重是什麼意思?在這兩種情況下優化的目標函數是什麼?第一個是正常的泊鬆對數似然:?

這也讓我很困惑。我想,“明確包含偏移量有什麼意義,而不是假裝響應除以偏移量/曝光量是價值?”。

如果你這樣做,你實際上會得到兩個不同的損失函數。

正確的方法(使用曝光/偏移)

模型以便. 這完全有道理:曝光只是乘以在沒有不同暴露的泊松回歸模型中。

我們對隨機變量進行建模, 回應, 具有帶參數的泊松分佈.

那麼可能性為數據點是:

對數似然, 只保留依賴於的項因為其他人會在分化後退出:

不正確的方式(使用作為 y 值)

現在我們仍然建模:

不同的是,現在我們假設具有泊松分佈。這本質上是使模型不正確的原因。它違反了以下假設具有泊松分佈。現在您將速率建模為具有泊松分佈。所以現在的可能性是:

[尷尬的擁有在階乘項中,但在對數似然微分之後無論如何它都會退出,所以讓我們繼續。]

對數似然, 只保留依賴於的項因為其他人會在分化後退出:

結論

和看起來驚人的相似,你可能認為它們是相同的,但它們不是(你不能只除以因為每個學期都不一樣!)

但是,如果我們在建模時考慮加權泊松回歸作為分佈式泊松(這是一個詞嗎?),對數似然中的每個數據點的權重為, 然後:

相當於!

引用自:https://stats.stackexchange.com/questions/264071

comments powered by Disqus