Poisson-Regression

計數樣本似乎不是泊松分佈,需要進行完整性檢查

  • March 26, 2020

我有一個練習,我必須對一些數據使用泊松單向分類/回歸。我擁有的數據是一組 120 個樣本,按以下標籤 A、B、C、D、E 和 F 分組。對於每組,有 20 個樣本(或 20 個重複)具有計數值。現在這一切都很好,據我所知,它非常適合假設它可能適合泊松分佈。

但是,據我了解,它是隨機變量的屬性之一 $ Y $ 接下來$$ Y \sim Po(\lambda) $$ 然後它遵循$$ E(Y) = V(Y) $$ 但是當我根據分組計算數據的平均值(預期)和方差時:然後我得到

|          |         A |         B |         C |         D |          E |         F |
|----------+-----------+-----------+-----------+-----------+------------+-----------|
|----------+-----------+-----------+-----------+-----------+------------+-----------|
| Mean     |      4.90 |      9.45 |      8.65 |      1.45 |      18.35 |      0.80 |
| Variance | 9.8842105 | 6.4710526 | 7.3973684 | 1.3131579 | 15.6078947 | 0.5894737 |
|----------+-----------+-----------+-----------+-----------+------------+-----------|

所以據我所知$$ E(Y) \neq V(Y) $$只是為了展示我是如何使用 R 計算的:

( Means <- tapply(D$NumberPGrains, D$Era, mean) )
( Variances <- tapply(D$NumberPGrains, D$Era, var) )

這意味著,據我了解,數據不是泊松分佈的。所以我的問題是:我錯了,這仍然是泊松分佈嗎,我錯過了什麼嗎?

為了澄清起見,該練習從字面上說明遵循泊松單向分類(練習的標題:“問題 3 -泊松單向分類模型”),但現在我很難看到這樣做的目的。

真正的泊松分佈的均值將完全等於其方差。對於採樣但是,對於泊松分佈,會有一些偏差 - 只有 20 個樣本,您不太可能看到樣本的均值和方差完全相等。在大多數情況下,您似乎在均值和方差之間具有很強的相關性,這很好。您還可以找到參數估計周圍的置信區間,以採用假設檢驗方法來確定您的均值和方差估計是否真的在統計上彼此不同。對於非常大的樣本量,如果數據確實是泊松分佈,您將有非常好的估計值,應該非常接近相等,但是對於較小的樣本量,您的估計值不會那麼好,因此平均值之間存在一些數值差異和方差是預期的。

引用自:https://stats.stackexchange.com/questions/455874

comments powered by Disqus

相關問答