Count-Data
為什麼泊松回歸用於計數數據?
我知道對於某些數據集(例如投票),它的表現更好。為什麼使用泊松回歸而不是普通的線性回歸或邏輯回歸?它的數學動機是什麼?
泊松分佈數據本質上是整數值,這對計數數據有意義。普通最小二乘法(OLS,你稱之為“線性回歸”)假設真值通常分佈在期望值周圍,並且可以取任何實值,正值或負值,整數或分數,等等。最後,邏輯回歸僅適用於 0-1 值(TRUE-FALSE 值)的數據,例如“有病”與“沒有病”。因此,泊松分佈對計數數據最有意義。
也就是說,對於平均值高於 30 左右的數據,正態分佈通常是泊松分佈的一個相當好的近似值。在回歸框架中,您有影響計數的預測變量,具有正態分佈的 OLS 可能更容易擬合併且實際上更一般,因為泊松分佈和回歸假設均值和方差相等,而 OLS可以處理不相等的均值和方差 - 例如,對於具有不同均值和方差的計數數據模型,可以使用負二項分佈。