使用雙胞胎研究數據進行線性混合效應建模
假設我有一些響應變量從兄弟姐妹家庭。此外,一些行為數據從每個受試者同時收集。我正在嘗試使用以下線性混合效應模型分析情況:
在哪裡和分別是固定截距和斜率, 是隨機斜率,並且是殘差。
隨機效應的假設和剩餘是(假設每個家庭只有兩個兄弟姐妹)
在哪裡是一個未知的方差參數和方差-協方差結構是一個 2 x 2 對稱矩陣,形式為
它模擬了兩個兄弟姐妹之間的相關性。
對於這樣的兄弟姐妹研究,這是一個合適的模型嗎?
數據有點複雜。在這 50 個家庭中,接近 90% 是雙卵(DZ)雙胞胎。對於其餘的家庭,
兩個只有一個兄弟姐妹;
兩個有一對 DZ 對加上一個兄弟姐妹;和
兩個有一個 DZ 對加上兩個額外的兄弟姐妹。
我相信
lme
R 包nlme
可以輕鬆處理 (1) 丟失或不平衡的情況。我的麻煩是,如何處理(2)和(3)?我能想到的一種可能性是將(2)和(3)中的這四個家庭中的每一個分成兩個,這樣每個子家庭就有一個或兩個兄弟姐妹,所以上述模型仍然可以應用。這樣好嗎?另一種選擇是簡單地丟棄(2)和(3)中額外的一兩個兄弟姐妹的數據,這似乎是一種浪費。有更好的方法嗎? 3. 似乎lme
可以修復殘差協方差矩陣中的值, 例如= 0.5。強加相關結構是否有意義,或者我應該簡單地根據數據估計它?
通過使用虛擬變量並在該虛擬變量中包含隨機斜率,您可以在統一模型中包含雙胞胎和非雙胞胎。由於所有家庭最多有一對雙胞胎,這將相對簡單:
讓如果兄弟姐妹在家庭中是雙胞胎,否則為 0。我假設您還希望雙胞胎與普通兄弟姐妹的隨機斜率不同 - 如果不是,請不要包括下面的模型中的術語。
然後擬合模型:
- 是固定效果,如您的規範中所述
- 是“基線”兄弟隨機效應和是允許雙胞胎比普通兄弟姐妹更相似的額外隨機效應。相應的隨機效應方差的大小量化了兄弟姐妹的相似程度以及與常規兄弟姐妹相比相似的雙胞胎多多少。請注意,雙胞胎和非雙胞胎相關性都由該模型表徵 - 雙胞胎相關性是通過適當地對隨機效應求和來計算的(插入)。
- 和有類似的作用,只是它們充當隨機斜率
- 是獨立同分佈誤差術語 - 請注意,我在隨機截距而不是相關殘差方面編寫的模型略有不同。
R
您可以使用包來擬合模型lme4
。在下面的代碼中,因變量是y
,虛擬變量是A
,預測變量是x
,虛擬變量和預測變量的乘積是Ax
並且famID
是家庭的標識符號。假設您的數據存儲在數據框中D
,這些變量作為列。library(lme4) g <- lmer(y ~ x + (1+A+x+Ax|famID), data=D)
可以通過鍵入查看隨機效應變量和固定效應估計值
summary(g)
。請注意,該模型允許隨機效應彼此自由相關。在許多情況下,假設隨機效應之間的獨立性可能更有意義(或更容易解釋)(例如,這種假設通常用於分解遺傳與環境家族相關性),在這種情況下,您應該輸入
g <- lmer(y ~ x + (1|famID) + (A-1|famID) + (x-1|famID) +(Ax-1|famID), data=D)