廣義線性(混合)模型(特別是殘差)的診斷
我目前正在努力為困難的計數數據(因變量)找到正確的模型。我嘗試了各種不同的模型(混合效應模型對於我的數據類型是必需的),例如
lmer
和lme4
(使用對數變換)以及具有各種族的廣義線性混合效應模型,例如高斯或負二項式。但是,我不確定如何正確診斷結果擬合。我在網上發現了很多關於這個話題的不同意見。我認為線性(混合)回歸的診斷非常簡單。您可以繼續分析殘差(正態性)以及通過繪製與殘差相比的擬合值來研究異方差性。
但是,您如何正確地為通用版本做到這一點?現在讓我們關注負二項式(混合)回歸。我在這裡看到了關於殘差的完全相反的陳述:
- 在檢查廣義線性模型中的正態性殘差中,第一個答案指出,對於 GLM,普通殘差不是正態分佈的;我認為這很清楚。但是,隨後指出 Pearson 和偏差殘差也不應該是正常的。然而,第二個答案指出偏差殘差應該是正態分佈的(結合參考)。
- 不過, ?glm.diag.plots的文檔(來自 R 的
boot
包)暗示了偏差殘差應該是正態分佈的。- 在這篇博文中,作者首先研究了我假設為 NB 混合效應回歸模型的 Pearson 殘差的正態性。正如預期的那樣(以我的誠實觀點),殘差並不正常,作者認為這個模型不合適。但是,如評論中所述,殘差應根據負二項分佈進行分佈。在我看來,這最接近事實,因為 GLM 殘差可以有其他分佈而不是正常分佈。這個對嗎?如何在這裡檢查異方差之類的東西?
- Ben & Yohai (2004)強調了最後一點(根據估計分佈的分位數繪製殘差) 。目前,這似乎是我要走的路。
簡而言之:您如何正確研究廣義線性(混合)回歸模型的模型擬合,特別關注殘差?
這個答案不是基於我的知識,而是引用了Bolker 等人的話。(2009 年)在《生態與進化趨勢》雜誌的一篇有影響力的論文中寫道。由於這篇文章不是開放訪問的(儘管在谷歌學者上搜索它可能會被證明是成功的,但我認為我引用了可能有助於解決部分問題的重要段落。所以再說一次,這不是我自己想出來的,但我認為它以非常直接且易於理解的寫作風格代表了關於 GLMM(包括診斷)的最佳濃縮信息。如果無論如何這個答案不適合任何原因,我會簡單地刪除它。我發現的東西對有關診斷的問題有用,在粗體。
第 127 頁:
面對非正態數據的研究人員經常嘗試捷徑,例如轉換數據以實現正態性和方差同質性,使用非參數檢驗或依靠經典 ANOVA 對非正態性的穩健性進行平衡設計 [15]。他們可能會完全忽略隨機效應(從而進行偽複製)或將它們視為固定因素 [16]。然而,這樣的捷徑可能會失敗(例如,具有許多零值的計數數據不能通過轉換變得正常)。即使他們成功了,他們也可能違反統計假設(即使是非參數測試也做出假設,例如組間方差的同質性)或限制推理的範圍(不能將固定效應的估計外推到新組)。與其將他們的數據硬塞進經典的統計框架中,研究人員應該使用與其數據相匹配的統計方法。廣義線性混合模型 (GLMM) 結合了廣泛用於生態學和進化的兩個統計框架的屬性,線性混合模型(包含隨機效應)和廣義線性模型(通過使用鏈接函數和指數族來處理非正態數據 [例如正態、泊鬆或二項式]分佈)。GLMM 是分析涉及隨機效應的非正態數據的最佳工具:原則上,只需指定隨機效應的分佈、鏈接函數和結構。線性混合模型(包含隨機效應)和廣義線性模型(通過使用鏈接函數和指數族[例如正態、泊鬆或二項式]分佈來處理非正態數據)。GLMM 是分析涉及隨機效應的非正態數據的最佳工具:原則上,只需指定隨機效應的分佈、鏈接函數和結構。線性混合模型(包含隨機效應)和廣義線性模型(通過使用鏈接函數和指數族[例如正態、泊鬆或二項式]分佈來處理非正態數據)。GLMM 是分析涉及隨機效應的非正態數據的最佳工具:原則上,只需指定隨機效應的分佈、鏈接函數和結構。
第 129 頁,方框 1:
殘差表明過度分散,因此我們使用準泊松模型重新擬合數據。儘管估計的尺度參數很大(10.8),但探索性圖表沒有發現個體、基因型或群體水平的異常值的證據。我們使用準AIC(QAIC),對隨機效應使用一個自由度[49],用於隨機效應,然後用於固定效應模型選擇。
第 133 頁,方框 4:
在這裡,我們概述了構建完整(最複雜)模型的一般框架,這是 GLMM 分析的第一步。在此過程之後,可以評估參數並比較子模型,如正文和圖 1 中所述。
- 指定固定(處理或協變量)和隨機效應(實驗、空間或時間塊、個體等)。僅包括重要的交互。基於經驗法則(每個隨機效應> 5-6個隨機效應水平和每個治療水平或實驗單元> 10-20個樣本)和從獲得的足夠樣本量的知識,將模型預先限制在可行的複雜程度以前的研究[64,65]。
- 選擇一個誤差分佈和鏈接函數(例如計數數據的泊松分佈和對數鏈接,比例數據的二項分佈和對數鏈接)。
- 圖形檢查:數據的差異(由鏈接函數轉換)是否在類別之間是同質的?轉換數據的響應是否與連續預測變量呈線性關係?是否存在異常的個人或群體?組內的分佈是否與假設的分佈相匹配?
- 將固定效應 GLM 擬合到完整(合併)數據集和隨機因子的每個級別 [28,50]。估計的參數應該在組間近似正態分佈(組級參數可能有很大的不確定性,尤其是對於樣本量小的組)。根據需要調整模型(例如更改鏈接函數或添加協變量)。
- 安裝完整的 GLMM。計算機內存不足或太慢:降低模型複雜度。如果對數據子集的估計成功,請嘗試更有效的估計算法(例如 PQL,如果合適的話)。收斂失敗(警告或錯誤):降低模型複雜性或更改優化設置(確保得到的答案有意義)。嘗試其他估計算法。零方差分量或奇異性(警告或錯誤):檢查模型是否正確定義和可識別(即理論上可以估計所有分量)。降低模型複雜性。向模型中添加信息(額外的協變量,或隨機效應的新分組)可以緩解問題,通過減去它們的平均值來居中連續協變量 [50]。如有必要,從完整模型中消除隨機效應,刪除 (i) 內在生物學意義較小的項,(ii) 估計方差非常小和/或不確定性很大的項,或 (iii) 交互項。(收斂誤差或零方差可能表明數據不足。)
- 重新檢查最終模型的假設(如步驟 3)並檢查參數估計和置信區間是否合理(巨大的置信區間可能表明擬合問題)。**標準化殘差的大小應該與擬合值無關。評估過度離散(Pearson 殘差平方和應為分佈式[66,67])。如有必要,更改分佈或估計比例參數。**檢查包含具有小標準偏差的丟棄隨機效應的完整模型是否提供與最終模型相似的結果。如果不同的模型導致顯著不同的參數估計,請考慮模型平均。
殘差圖應用於評估過度離散,轉換後的方差應在各個類別之間保持均勻。文章中沒有提到殘差應該是正態分佈的。
我認為存在對比陳述的原因反映了 GLMM(第 127-128 頁)……
…即使對於統計學家來說,使用起來也具有驚人的挑戰性。儘管有幾個軟件包可以處理 GLMM(表 1),但很少有生態學家和進化生物學家意識到選項的範圍或可能的陷阱。在回顧 Google Scholar 發現的 2005 年以來的生態學和進化論文時,537 次 GLMM 分析中有 311 次(58%)以某種方式不恰當地使用了這些工具(參見在線補充材料)。
這裡有一些使用 GLMM 的完整示例,包括診斷。
我意識到這個答案更像是評論,應該這樣對待。但是評論部分不允許我添加這麼長的評論。此外,由於我相信這篇論文對這次討論很有價值(但不幸的是在付費牆後面),我認為在這裡引用重要段落會很有用。
引用論文:
[15] - GP Quinn, MJ Keough (2002):生物學家的實驗設計和數據分析,劍橋大學出版社。
[16] - MJ Crawley (2002):統計計算:使用 S-PLUS 進行數據分析的介紹,John Wiley & Sons。
[28] - JC Pinheiro,DM Bates (2000):S 和 S-PLUS 中的混合效果模型,Springer。
[49] - F. Vaida, S. Blanchard (2005):混合效應模型的條件 Akaike 信息。Biometrika,92,第 351-370 頁。
[50] - A. Gelman, J. Hill (2006):使用回歸和多級/分層模型進行數據分析,劍橋大學出版社。
[64] - NJ Gotelli, AM Ellison (2004):生態統計入門,Sinauer Associates。
[65] - FJ Harrell (2001):回歸建模策略,Springer。
[66] - JK Lindsey (1997):應用廣義線性模型,施普林格。
[67] - W. Venables, BD Ripley (2002): 現代應用統計與 S, Springer。