為什麼處理編碼會導致隨機斜率和截距之間存在相關性?
考慮一個受試者內和項目內的因子設計,其中實驗處理變量具有兩個水平(條件)。設
m1
最大模型和m2
非隨機相關模型。m1: y ~ condition + (condition|subject) + (condition|item) m2: y ~ condition + (1|subject) + (0 + condition|subject) + (1|item) + (0 + condition|item)
對於這種情況,Dale Barr聲明如下:
編輯(2018 年 4 月 20 日):正如 Jake Westfall 所指出的,以下陳述似乎僅指本網站上圖 1 和圖 2 中顯示的數據集。但是,主旨保持不變。
在偏差編碼表示中(條件:-0.5 對 0.5)
m2
允許分佈,其中受試者的隨機截距與受試者的隨機斜率不相關。只有最大模型m1
允許分佈,其中兩者是相關的。在治療編碼表示(條件:0 vs. 1)中,這些分佈,其中受試者的隨機截距與受試者的隨機斜率不相關,不能使用非隨機相關模型擬合,因為在每種情況下,隨機數之間存在相關性處理編碼表示中的斜率和截距。
為什麼治療編碼
總是導致隨機斜率和截距之間的相關性?
處理編碼並不總是或必然導致截距/斜率相關,但它往往往往不會。使用圖片最容易理解為什麼會出現這種情況,並考慮連續而不是分類預測器的情況。
這是一張外觀正常的聚類數據集的圖片,隨機截距和隨機斜率之間的相關性約為 0:
但是現在看看當通過將每個 X 值加 3 來將預測變量 X 向右移動時會發生什麼:
從深度上講,它是同一個數據集——如果我們放大數據點,它看起來與第一個圖相同,但重新標記了 X 軸——但簡單地通過移動 X,我們已經在隨機截距和隨機斜率。發生這種情況是因為當我們移動 X 時,我們重新定義了每個組的截距。請記住,截距始終指的是特定於組的回歸線與 X=0 相交的 Y 值。但是現在 X=0 點離數據中心很遠。因此,為了計算截距,我們本質上是在觀察數據范圍之外進行推斷。如您所見,結果是斜率越大,截距越低,反之亦然。
**當您使用處理編碼時,它就像在底部圖表中描述的 X 位移的一個不太極端的版本。**這是因為處理代碼 {0,1} 只是偏差代碼 {-0.5, 0.5} 的移位版本,其中添加了 +0.5 的移位。*編輯 2018-08-29:現在在我對另一個問題的最新答案*的第二個圖中更清楚、更直接地說明了這一點。
就像我之前說的,這不是必然的。可能有一個與上述類似的數據集,但斜率和截距在偏移尺度上不相關(其中截距指的是遠離數據的點)並且在中心尺度上相關。但是,此類數據集中的特定組回歸線往往會表現出“扇出”模式,在實踐中,這種模式在現實世界中並不常見。