Modeling
在結合了兩個分佈的模型中測量擬合優度
我正在嘗試建模具有雙峰的數據,並且峰之間有足夠的重疊,我無法獨立處理它們。數據的直方圖可能如下所示:
我為此創建了兩個模型:一個使用兩個 Poisson 分佈,另一個使用兩個負二項式分佈(以解釋過度分散)。判斷哪個模型更準確地擬合數據的適當方法是什麼?
我最初的想法是,我可以使用 Kolmogorov-Smirnov 檢驗將每個模型與數據進行比較,然後進行似然比檢驗,看看一個模型是否更適合。這有意義嗎?如果是這樣,我不確定如何執行似然比檢驗。卡方是否合適,我有多少自由度?
如果有幫助,模型的一些(非常簡化的)R 代碼可能如下所示:
## inital data points a <- read.table("data") #create model data model.pois = c(rpois(1000000,200),rpois(500000,250)) model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5) #Kolmogorov-Smirnov test #use ks.boot, since it's count data that may contain duplicate values kpois = ks.boot(model.pois,a) knb = ks.boot(model.nb,a) #here's where I'd do some sort of likelihood ratio test # . . .
編輯:這是一張可以解釋我更適合的數據和分佈的圖像。從可視化中可以完全清楚地看出,第二個模型(使用負二項式分佈來解釋過度分散)更適合。不過,我想定量地展示這一點。
(紅色 - 數據,綠色 - 模型)
您可以使用諸如實際值與預測值之間的均方誤差之類的指標來比較兩個模型。