R

為什麼要從混合效應模型中進行預測,而不包括預測的隨機效應?

  • February 16, 2017

這更像是一個概念性問題,但當我使用時,R我將參考R. 如果目標是為了預測目的擬合線性模型,然後在隨機效應可能不可用的情況下進行預測,那麼使用混合效應模型有什麼好處,還是應該使用固定效應模型?

例如,如果我有關於體重與身高的數據以及其他一些信息,並使用 構建以下模型lme4,其中主題是與水平():

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

然後我希望能夠使用新的身高和年齡數據從模型中預測體重。顯然,模型中捕獲了原始數據中的個體差異,但是否可以在預測中使用這些信息?假設我有一些新的身高和年齡數據,並且想預測體重,我可以這樣做:

predict(mod1,newdata=newdf) # newdf columns for height, age, subject

這將使用predict.merMod,我可以在newdf或 set中包含(新)主題的列re.form =~0。在第一種情況下,尚不清楚模型對“新”主題因素做了什麼,在第二種情況下,模型中捕獲的按主題方差是否會被簡單地忽略(平均)以進行預測?

在任何一種情況下,在我看來,固定效應線性模型可能更合適。事實上,如果我的理解是正確的,那麼如果預測中沒有使用隨機效應,那麼固定效應模型應該預測與混合模型相同的值。應該是這樣嗎?它不是,R例如:

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject

產生不同的結果:

mod2 <- lm(weight ~ height + age, data=df)

predict(mod2,newdata=newdf) # newdf columns for height, age


簡單的思維實驗:你測量了 5 個嬰兒出生後的體重和身高。兩年後你又從同一個嬰兒身上測量了它。同時,您幾乎每週都會測量您的寶貝女兒的體重和身高,從而為她生成了 100 個值對。如果您使用混合效果模型,則沒有問題。如果您使用固定效應模型,您會過度重視女兒的測量結果,以至於如果您只使用她的數據,您將獲得幾乎相同的模型擬合。因此,正確模擬重複測量或不確定性結構不僅對推理很重要,而且對預測也很重要。通常,您不會從混合效應模型和固定效應模型(違反假設)獲得相同的預測。

我可以在 newdf 中包含(新)主題的列

您無法預測不屬於原始(訓練)數據的主題。又是一個思想實驗:新對像是肥胖的。模型如何知道它處於隨機效應分佈的上端?

模型中捕獲的個體差異是否會被簡單地忽略(平均)以進行預測

如果我理解正確,那麼是的。該模型為您提供了總體預期值的估計值(請注意,該估計值仍以原始受試者為條件)。

引用自:https://stats.stackexchange.com/questions/262277

comments powered by Disqus