比較線性混合效應模型中的隨機效應結構
在最近提出的關於線性混合效應模型的問題中,有人告訴我,不應使用似然比檢驗在具有不同隨機效應結構的模型之間進行比較。到目前為止,我一直在裝有 REML 的嵌套模型上使用這種方法,在該模型中,固定效應保持不變,以此作為找到最佳隨機效應結構的一種方式。我的方法基於 Alain Zuur(2009 年)第 5 章為生態學家廣泛使用的關於統計建模的書“混合效應模型和生態學擴展”。Pinheiro & Bates 的另一本關於 LME 的書也支持這種方法(2000) 即第 83 頁。
我想就這是否確實是一種不健全的方法尋求進一步的建議,如果是,請在 R 中找到一個更強大的可行替代方案。
我在下面給出了兩個嵌套模型的示例(使用 R 中的 lme() 函數創建),以及我目前如何將它們與 LRT 或 AIC 進行比較:
模型 1:隨機截距模型 # > M1 = lme(dtim ~ dd, random = ~1 | fInd,數據=df,方法=“REML”)
Linear mixed-effects model fit by REML Data: df AIC BIC logLik 47344.74 47373.58 -23668.37 Random effects: Formula: ~1 | fInd (Intercept) Residual StdDev: 0.5244626 2.574662 Fixed effects: dtim ~ dd Value Std.Error DF t-value p-value (Intercept) -0.8681514 0.17048746 9988 -5.09217 0 dd 2.2424996 0.01260611 9988 177.88982 0 Correlation: (Intr) dd -0.203 Standardized Within-Group Residuals: Min Q1 Med Q3 Max -5.7610884 -0.4620287 -0.1732839 0.2395293 13.0981698 Number of Observations: 10000 Number of Groups: 11 # Model 2: random intercept and slope model # > M2 = lme(dtim ~ dd, data=df, random= ~1 + dd|fInd, method="REML") Linear mixed-effects model fit by REML Data: df AIC BIC logLik 47041.82 47085.08 -23514.91 Random effects: Formula: ~1 + dd | fInd Structure: General positive-definite, Log-Cholesky parametrization StdDev Corr (Intercept) 0.4860448 (Intr) dd 0.3231004 -0.687 Residual 2.5314343 Fixed effects: dtim ~ dd Value Std.Error DF t-value p-value (Intercept) -0.5568345 0.15839434 9988 -3.515495 4e-04 dd 2.0912224 0.09974746 9988 20.965168 0e+00 Correlation: (Intr) dd -0.676 Standardized Within-Group Residuals: Min Q1 Med Q3 Max -4.6988351 -0.4460439 -0.1848166 0.2296023 12.9419866 Number of Observations: 10000 Number of Groups: 11 # Compare the two models using LRTs > anova(M1,M2) Model df AIC BIC logLik Test L.Ratio p-value M1 1 4 47344.74 47373.58 -23668.37 M2 2 6 47041.82 47085.08 -23514.91 1 vs 2 306.9191 <.0001 # L ratio test statistic: to get correct p-value from L ratio test I would then use the below formula (due to testing the boundary effect) # 0.5 * ( (1 - pchisq(L.ratio, 1)) + (1 - pchisq(L.ratio, 2)) ) > 0.5 * ( (1 - pchisq(306.9191, 1)) + (1 - pchisq(306.9191, 2)) ) [1] 0
L.Ratio 表明在模型中添加隨機斜率項是一項重大改進。AIC 也較低。任何關於這是否是一種穩健方法的建議將不勝感激。
我是向你建議這個的人;正如我在那裡的評論中提到的那樣:“抱歉誤導了我的大部分評論關於選擇(上) $ X $ 不是 $ Z $ “。我的意思是我主要指的是固定效應而不是隨機效應結構。
是的,如果你有相同的,你可以使用 LRT $ X $ 同時使用由 REML 擬合的模型。在這些情況下,您應該能夠謹慎使用 AIC。這是因為如何定義與特定隨機效應相關的自由度並不明顯。您不應該直接使用 AIC 的“香草”版本。請參閱 Greven 和 Kneib,2010 年的相關內容;他們提出了一個修正的cAIC。他們還提供了一個 R 包,用於實現他們概述的更正 cAIC。
AIC 和 LRT 是漸近測試,但是當您需要估計可能接近樣本空間邊界的參數時(即當您測試接近於 $ 0 $ . 在這種情況下,您實際上想要混合 $ \chi^2 $ -分佈。一個相關的參考文獻是Lindquist et al., 2012。在這方面,如果關於使用 ReML 的理論理由,Morell, 1999也可以提供幫助。
您詢問了一種“穩健的方法”來選擇您的隨機效應結構;在第一個實例中,引導您的樣本。使用參數引導來評估模型的漸近行為。請參閱glmm.wikidot中提到的關於隨機效應是否顯著的評論。正如我之前的評論中提到的那樣,我會非常謹慎地開始選擇模型 $ Z $ ; 根據我的研究問題,我更喜歡“把它當作給定的”。否則我只是簡單地挑選我的錯誤結構,試圖“從剩餘的術語中擠出更多的意義”[ glmm.wikidot ]。
回顧一下:使用輕軌並非“不合理”;它雖然容易受到 LRT 關於其漸近行為的限制。有許多關於如何提供補救措施的參考資料。此時對您來說最簡單的事情就是在第一次使用RLRsim。它基於 Greven, Scheipl et al., 2008的另一件作品。