Mixed-Model

比較線性混合效應模型中的隨機效應結構

  • October 1, 2014

最近提出的關於線性混合效應模型的問題中,有人告訴我,不應使用似然比檢驗在具有不同隨機效應結構的模型之間進行比較。到目前為止,我一直在裝有 REML 的嵌套模型上使用這種方法,在該模型中,固定效應保持不變,以此作為找到最佳隨機效應結構的一種方式。我的方法基於 Alain Zuur(2009 年)第 5 章為生態學家廣泛使用的關於統計建模的書“混合效應模型和生態學擴展”。Pinheiro & Bates 的另一本關於 LME 的書也支持這種方法(2000) 即第 83 頁。

我想就這是否確實是一種不健全的方法尋求進一步的建議,如果是,請在 R 中找到一個更強大的可行替代方案。

我在下面給出了兩個嵌套模型的示例(使用 R 中的 lme() 函數創建),以及我目前如何將它們與 LRT 或 AIC 進行比較:

模型 1:隨機截距模型 # > M1 = lme(dtim ~ dd, random = ~1 | fInd,數據=df,方法=“REML”)

Linear mixed-effects model fit by REML
Data: df 
      AIC      BIC    logLik
 47344.74 47373.58 -23668.37

Random effects:
Formula: ~1 | fInd
       (Intercept) Residual
StdDev:   0.5244626 2.574662

Fixed effects: dtim ~ dd
                Value  Std.Error   DF   t-value p-value
(Intercept) -0.8681514 0.17048746 9988  -5.09217       0
   dd       2.2424996 0.01260611 9988 177.88982       0
Correlation: 
      (Intr)
  dd -0.203

Standardized Within-Group Residuals:
      Min         Q1        Med         Q3        Max 
-5.7610884 -0.4620287 -0.1732839  0.2395293 13.0981698 

Number of Observations: 10000
Number of Groups: 11


# Model 2: random intercept and slope model
# > M2 = lme(dtim ~ dd, data=df, random= ~1 + dd|fInd, method="REML")

Linear mixed-effects model fit by REML
Data: df 
      AIC      BIC    logLik
 47041.82 47085.08 -23514.91

Random effects:
Formula: ~1 + dd | fInd
Structure: General positive-definite, Log-Cholesky parametrization
           StdDev    Corr  
(Intercept) 0.4860448 (Intr)
dd          0.3231004 -0.687
Residual    2.5314343       

Fixed effects: dtim ~ dd 
                Value  Std.Error   DF   t-value p-value
(Intercept) -0.5568345 0.15839434 9988 -3.515495   4e-04
dd          2.0912224 0.09974746 9988 20.965168   0e+00
Correlation: 
      (Intr)
dd   -0.676

Standardized Within-Group Residuals:
      Min         Q1        Med         Q3        Max 
-4.6988351 -0.4460439 -0.1848166  0.2296023 12.9419866 

Number of Observations: 10000
Number of Groups: 11 

# Compare the two models using LRTs
> anova(M1,M2)
  Model df      AIC      BIC    logLik   Test  L.Ratio p-value
M1     1  4 47344.74 47373.58 -23668.37                        
M2     2  6 47041.82 47085.08 -23514.91 1 vs 2 306.9191  <.0001

# L ratio test statistic: to get correct p-value from L ratio test I would then use the below formula (due to testing the boundary effect)
# 0.5 * ( (1 - pchisq(L.ratio, 1)) + (1 - pchisq(L.ratio, 2)) )
> 0.5 * (  (1 - pchisq(306.9191, 1)) +  (1 - pchisq(306.9191, 2))  )
[1] 0

L.Ratio 表明在模型中添加隨機斜率項是一項重大改進。AIC 也較低。任何關於這是否是一種穩健方法的建議將不勝感激。

我是向你建議這個的人;正如我在那裡的評論中提到的那樣:“抱歉誤導了我的大部分評論關於選擇(上) $ X $ 不是 $ Z $ “。我的意思是我主要指的是固定效應而不是隨機效應結構。

是的,如果你有相同的,你可以使用 LRT $ X $ 同時使用由 REML 擬合的模型。在這些情況下,您應該能夠謹慎使用 AIC。這是因為如何定義與特定隨機效應相關的自由度並不明顯。您不應該直接使用 AIC 的“香草”版本。請參閱 Greven 和 Kneib,2010 年的相關內容;他們提出了一個修正的cAIC。他們還提供了一個 R 包,用於實現他們概述的更正 cAIC。

AIC 和 LRT 是漸近測試,但是當您需要估計可能接近樣本空間邊界的參數時(即當您測試接近於 $ 0 $ . 在這種情況下,您實際上想要混合 $ \chi^2 $ -分佈。一個相關的參考文獻是Lindquist et al., 2012。在這方面,如果關於使用 ReML 的理論理由,Morell, 1999也可以提供幫助。

您詢問了一種“穩健的方法”來選擇您的隨機效應結構;在第一個實例中,引導您的樣本。使用參數引導來評估模型的漸近行為。請參閱glmm.wikidot中提到的關於隨機效應是否顯著的評論。正如我之前的評論中提到的那樣,我會非常謹慎地開始選擇模型 $ Z $ ; 根據我的研究問題,我更喜歡“把它當作給定的”。否則我只是簡單地挑選我的錯誤結構,試圖“從剩餘的術語中擠出更多的意義”[ glmm.wikidot ]。

回顧一下:使用輕軌並非“不合理”;它雖然容易受到 LRT 關於其漸近行為的限制。有許多關於如何提供補救措施的參考資料。此時對您來說最簡單的事情就是在第一次使用RLRsim。它基於 Greven, Scheipl et al., 2008的另一件作品。

引用自:https://stats.stackexchange.com/questions/117497

comments powered by Disqus