為什麼處理編碼會導致隨機斜率和截距之間存在相關性？

March 27, 2018

考慮一個受試者內和項目內的因子設計，其中實驗處理變量具有兩個水平（條件）。設m1最大模型和m2非隨機相關模型。
m1: y ~ condition + (condition|subject) + (condition|item)
m2: y ~ condition + (1|subject) + (0 + condition|subject) + (1|item) + (0 + condition|item)
對於這種情況，Dale Barr聲明如下：

編輯（2018 年 4 月 20 日）：正如 Jake Westfall 所指出的，以下陳述似乎僅指本網站上圖 1 和圖 2 中顯示的數據集。但是，主旨保持不變。

在偏差編碼表示中（條件：-0.5 對 0.5）m2允許分佈，其中受試者的隨機截距與受試者的隨機斜率不相關。只有最大模型m1允許分佈，其中兩者是相關的。

在治療編碼表示（條件：0 vs. 1）中，這些分佈，其中受試者的隨機截距與受試者的隨機斜率不相關，不能使用非隨機相關模型擬合，因為在每種情況下，隨機數之間存在相關性處理編碼表示中的斜率和截距。

為什麼治療編碼總是導致隨機斜率和截距之間的相關性？

處理編碼並不總是或必然導致截距/斜率相關，但它往往往往不會。使用圖片最容易理解為什麼會出現這種情況，並考慮連續而不是分類預測器的情況。

這是一張外觀正常的聚類數據集的圖片，隨機截距和隨機斜率之間的相關性約為 0：

但是現在看看當通過將每個 X 值加 3 來將預測變量 X 向右移動時會發生什麼：

從深度上講，它是同一個數據集——如果我們放大數據點，它看起來與第一個圖相同，但重新標記了 X 軸——但簡單地通過移動 X，我們已經在隨機截距和隨機斜率。發生這種情況是因為當我們移動 X 時，我們重新定義了每個組的截距。請記住，截距始終指的是特定於組的回歸線與 X=0 相交的 Y 值。但是現在 X=0 點離數據中心很遠。因此，為了計算截距，我們本質上是在觀察數據范圍之外進行推斷。如您所見，結果是斜率越大，截距越低，反之亦然。

**當您使用處理編碼時，它就像在底部圖表中描述的 X 位移的一個不太極端的版本。**這是因為處理代碼 {0,1} 只是偏差代碼 {-0.5, 0.5} 的移位版本，其中添加了 +0.5 的移位。*編輯 2018-08-29：現在在我對另一個問題的最新答案*的第二個圖中更清楚、更直接地說明了這一點。

就像我之前說的，這不是必然的。可能有一個與上述類似的數據集，但斜率和截距在偏移尺度上不相關（其中截距指的是遠離數據的點）並且在中心尺度上相關。但是，此類數據集中的特定組回歸線往往會表現出“扇出”模式，在實踐中，這種模式在現實世界中並不常見。

引用自：https://stats.stackexchange.com/questions/337158

comments powered by Disqus

為什麼處理編碼會導致隨機斜率和截距之間存在相關性？

相關問答

為什麼這個線性混合模型是奇異的？

為什麼不總是使用廣義估計方程 (GEE) 而不是線性混合模型？

“城市”應該是固定變量還是隨機效應變量？

究竟什麼是多熱編碼，它與單熱編碼有何不同？

固定效應的頻率論定義是什麼？

固定效應模型中的可變斜率