Mixed-Model
為什麼必須使用 REML(而不是 ML)在嵌套的 var-covar 模型中進行選擇?
關於線性混合模型隨機效應的模型選擇的各種描述指示使用 REML。我在某種程度上知道 REML 和 ML 之間的區別,但我不明白為什麼應該使用 REML,因為 ML 是有偏見的。例如,使用 ML 對正態分佈模型的方差參數進行 LRT 是否錯誤(見下面的代碼)?我不明白為什麼在模型選擇中保持公正比成為 ML 更重要。我認為最終的答案必須是“因為模型選擇使用 REML 比使用 ML 效果更好”,但我想知道的遠不止這些。我沒有閱讀 LRT 和 AIC 的推導(我還不足以徹底理解它們),但是如果在推導中明確使用了 REML,只要知道這實際上就足夠了(例如,
n <- 100 a <- 10 b <- 1 alpha <- 5 beta <- 1 x <- runif(n,0,10) y <- rnorm(n,a+b*x,alpha+beta*x) loglik1 <- function(p,x,y){ a <- p[1] b <- p[2] alpha <- p[3] -sum(dnorm(y,a+b*x,alpha,log=T)) } loglik2 <- function(p,x,y){ a <- p[1] b <- p[2] alpha <- p[3] beta <- p[4] -sum(dnorm(y,a+b*x,alpha+beta*x,log=T)) } m1 <- optim(c(a,b,alpha),loglik1,x=x,y=y)$value m2 <- optim(c(a,b,alpha,beta),loglik2,x=x,y=y)$value D <- 2*(m1-m2) 1-pchisq(D,df=1) # p-value
一個非常簡短的答案:REML 是一個 ML,所以基於 REML 的測試無論如何都是正確的。由於使用 REML 估計方差參數更好,因此使用它是很自然的。
為什麼 REML 是 ML?考慮例如一個模型
和,, 和是固定效應的向量,是隨機效應的向量,並且. 受限似然可以通過考慮獲得對比“移除”固定效果。更準確地說,讓, 這樣和(即,列是向量空間的正交基,正交於由 的列生成的空間) ; 然後和, 和可能性給定是受限的可能性。