似然比與沃爾德檢驗
根據我一直在閱讀的內容,在UCLA 統計諮詢組似然比測試和 wald 測試網站上的其他內容中,在測試兩個 glm 模型是否顯示出對數據集的擬合顯著差異時非常相似(請原諒我的措辭可能有點偏)。本質上,我可以比較兩個模型並測試第二個模型是否顯示出比第一個模型更好的擬合,或者模型之間沒有差異。
因此,對於相同的回歸模型,LR 和 Wald 檢驗應該顯示相同的大致 p 值。至少應該得出同樣的結論。
現在我在 R 中對同一個模型進行了兩次測試,得到了截然不同的結果。以下是 R 對一個模型的結果:
> lrtest(glm(data$y~1),glm(data$y~data$site_name,family="poisson")) Likelihood ratio test Model 1: data$y ~ 1 Model 2: data$y ~ data$site_name #Df LogLik Df Chisq Pr(>Chisq) 1 2 -89.808 2 9 -31.625 7 116.37 < 2.2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > lrtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson")) Likelihood ratio test Model 1: data$y ~ 1 Model 2: data$y ~ data$site_name #Df LogLik Df Chisq Pr(>Chisq) 1 1 -54.959 2 9 -31.625 8 46.667 1.774e-07 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > waldtest(glm(data$y~data$site_name,family="poisson")) Wald test Model 1: data$y ~ data$site_name Model 2: data$y ~ 1 Res.Df Df F Pr(>F) 1 45 2 53 -8 0.7398 0.6562 > waldtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson")) Wald test Model 1: data$y ~ 1 Model 2: data$y ~ data$site_name Res.Df Df F Pr(>F) 1 53 2 45 8 0.7398 0.6562
關於數據,data $ y 包含計數數據,data $ site_name 是一個有 9 個級別的因子。數據$ y中有 54 個值,每級數據$ site_name 有 6 個值。
以下是頻率分佈:
> table(data$y) 0 2 4 5 7 50 1 1 1 1 > table(data$y,data$site_name) Andulay Antulang Basak Dauin Poblacion District 1 Guinsuan Kookoo's Nest Lutoban Pier Lutoban South Malatapay Pier 0 6 6 6 4 6 6 6 5 5 2 0 0 0 0 0 0 0 1 0 4 0 0 0 1 0 0 0 0 0 5 0 0 0 0 0 0 0 0 1 7 0 0 0 1 0 0 0 0 0
現在,由於零計數的巨大過度分散,該數據不能很好地擬合泊松分佈。但是對於另一個模型,其中數據$ y>0 非常適合泊松模型,並且在使用零膨脹泊松模型時,我仍然得到非常不同的 wald 測試和 lrtest 結果。wald 檢驗顯示 p 值為 0.03,而 lrtest 的 p 值為 0.0003。儘管結論可能相同,但仍然存在 100 倍的差異。
那麼我在這裡對似然比與 waldtest 的理解有什麼錯誤?
值得注意的是,儘管研究人員使用似然比檢驗和 Wald 檢驗來實現相同的經驗目標,但它們正在檢驗不同的假設。似然比檢驗評估數據是否可能來自更複雜的模型,而不是更簡單的模型。換句話說,添加特定效果是否允許模型解釋更多信息。相反,Wald 檢驗評估估計效應是否可能為零。可以肯定的是,這是一個微妙的差異,但仍然是一個重要的概念差異。
Agresti (2007) 對比似然比檢驗、Wald 檢驗和稱為“分數檢驗”的第三種方法(他幾乎沒有進一步詳細說明該檢驗)。從他的書中(第 13 頁):
當樣本量從小到中等時,Wald 檢驗是三個檢驗中最不可靠的。對於這個例子中的這麼小的 n,我們不應該相信它(n = 10)。就接近匹配名義水平的實際錯誤概率而言,似然比推理和基於分數測試的推理更好。三個統計值的顯著差異表明 ML 估計量的分佈可能遠離正態性。在這種情況下,小樣本方法比大樣本方法更合適。
查看您的數據和輸出,您似乎確實有一個相對較小的樣本,因此可能希望在似然比檢驗結果與 Wald 檢驗結果之間放置更多庫存。
參考
Agresti, A. (2007)。分類數據分析導論(第 2 版)。新澤西州霍博肯:約翰威利父子公司。