從 lmer 模型計算效果的可重複性
我剛剛看到這篇論文,它描述瞭如何通過混合效應建模來計算測量的可重複性(又名可靠性,又名類內相關性)。R代碼將是:
#fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = R/(R+(1-R)/n0)
我相信這種方法也可用於計算效果的可靠性(即具有 2 個級別的變量的對比效果之和),如:
#make sure the effect variable has sum contrasts contrasts(my_data$iv) = contr.sum #fit the model fit = lmer(dv~(iv|unit)+iv,data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 effect_var = attr(vc$id,'stddev')[2]^2 #compute the unadjusted repeatability R = effect_var/(effect_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit,my_data$iv)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = R/(R+(1-R)/n0)
三個問題:
- 上述用於獲得效應可重複性的點估計的計算是否有意義?
- 當我有多個要估計其可重複性的變量時,將它們全部添加到相同的擬合(例如
lmer(dv~(iv1+iv2|unit)+iv1+iv2
)似乎比為每個效應創建單獨的模型產生更高的可重複性估計。這對我來說在計算上是有意義的,因為包含多個效應會傾向於減少殘差方差,但我並不肯定由此產生的可重複性估計是有效的。他們是嗎?- 上面引用的論文表明似然分析可能有助於我獲得可重複性估計的置信區間,但據我所知,
confint(profile(fit))
僅提供截距和效應方差的區間,而我還需要計算剩餘方差的區間重複性的間隔,不是嗎?
我想我至少可以回答您關於未經調整的可重複性估計的問題,即經典的類內相關性(ICC)。至於“調整後的”可重複性估計,我瀏覽了您鏈接的論文,並沒有真正看到您應用的公式在論文中的哪裡可以找到?根據數學表達式,它似乎是平均分數(而不是單個分數)的可重複性。但目前尚不清楚這是否是您問題的關鍵部分,因此我將忽略它。
(1.) 上述用於獲得效應可重複性的點估計的計算是否有意義?
是的,您提出的表達式確實有道理,但需要對您提出的公式稍作修改。下面我將展示如何推導出您提出的重複性係數。我希望這既能闡明係數的概念意義,也能說明為什麼需要稍微修改它。
首先,讓我們首先在您的第一個案例中獲取可重複性係數,並闡明它的含義以及它的來源。理解這一點將有助於我們理解更複雜的第二種情況。
僅隨機截取
在這種情況下,混合模型中的響應第組是
隨機截取的地方有方差和殘差有方差. 現在,兩個隨機變量之間的相關性和定義為
ICC / 重複性係數的表達式來自於讓兩個隨機變量和是從相同的兩個觀察團體,
如果你使用上面給出的定義和方差/協方差的屬性來簡化這個過程(我不會在這裡展示這個過程,除非你或其他人更喜歡我這樣做),你最終會得到
這意味著在這種情況下,ICC 或“未調整的重複性係數”有一個簡單的解釋,即來自同一集群的一對觀測值之間的預期相關性(扣除固定效應,在這種情況下只是總平均值)。在這種情況下,ICC 也可以解釋為方差的一部分,這一事實是巧合的;對於更複雜的 ICC,這種解釋通常不正確。作為某種相關性的解釋是主要的。 隨機截距和隨機斜率
現在對於第二種情況,我們必須首先澄清“效果的可靠性(即具有2個水平的變量的總和對比效果)”的確切含義 - 你的話。
首先,我們佈置模型。混合模型為中的響應下的第 組對比編碼預測器的第 th 級是
其中隨機截距有方差, 隨機斜率有方差,隨機截距和斜率具有協方差, 和殘差有方差. 那麼這個模型下的“效果的可重複性”是什麼?我認為一個好的候選定義是它是在同一計算的兩對差異分數之間的預期相關性集群,但跨越不同的觀察對.
因此,所討論的這對差異分數將是(請記住,我們假設是對比編碼的,因此):
和
將這些代入相關公式給我們
這簡化為
請注意,ICC 在技術上是!然而,在這種情況下只能取 2 個可能的值,並且 ICC 在這兩個值上是相同的。 如您所見,這與您在問題中提出的重複性係數非常相似,唯一的區別是,如果要將表達式解釋為 ICC 或“未調整的重複性係數”,則必須適當縮放隨機斜率方差。您編寫的表達式在特殊情況下有效,其中預測器被編碼,但不是一般的。
(2.) 當我有多個要估計其重複性的變量時,將它們全部添加到相同的擬合中(例如
lmer(dv~(iv1+iv2|unit)+iv1+iv2
)似乎比為每個效應創建單獨的模型產生更高的重複性估計。這對我來說在計算上是有意義的,因為包含多個效應會傾向於減少殘差方差,但我並不肯定由此產生的可重複性估計是有效的。他們是嗎?我相信,對於具有多個具有自己隨機斜率的預測變量的模型,通過與上述類似的推導將表明,上面的可重複性係數仍然有效,除了我們在概念上感興趣的差異分數現在會增加複雜性有一個稍微不同的定義:即,在控制模型中的其他預測變量後,我們對調整後均值之間差異的預期相關性感興趣。
如果其他預測變量與感興趣的預測變量正交(例如在平衡實驗中),我認為上面闡述的 ICC / 可重複性係數應該無需任何修改即可工作。如果它們不是正交的,那麼您需要修改公式以考慮到這一點,這可能會變得複雜,但希望我的回答已經給出了一些關於它可能是什麼樣子的提示。