什麼時候使用混合效應模型?
線性混合效應模型是線性回歸模型的擴展,用於分組收集和匯總的數據。主要優點是係數可以根據一個或多個組變量而變化。
但是,我正在**為何時使用混合效果模型而苦苦掙扎?**我將通過使用帶有極端情況的玩具示例來詳細說明我的問題。
假設我們想為動物的身高和體重建模,並且我們使用物種作為分組變量。
- 如果不同的群體/物種真的不同。說狗和大象。我認為使用混合效應模型沒有意義,我們應該為每個組建立一個模型。
- 如果不同的群體/物種真的很相似。說一隻母狗和一隻公狗。我認為我們可能希望在模型中使用性別作為分類變量。
那麼,我假設我們應該在中間情況下使用混合效應模型?比如說,這群人是貓、狗、兔子,它們是大小相似但不同的動物。
是否有任何正式的論據來建議何時使用混合效應模型,即如何在
- 為每個組構建模型
- 混合效應模型
- 在回歸中使用組作為分類變量
我的嘗試:方法1是最“複雜的模型”/更少的自由度,方法3是最“簡單的模型”/更多的自由度。中間是混合效應模型。我們可以考慮根據 Bais Variance Trade Off 選擇正確的模型需要多少數據和多複雜的數據。
恐怕我可能會得到細緻入微且可能不令人滿意的答案,即這是研究人員或數據分析師的主觀選擇。正如本線程其他地方所提到的,僅僅說數據具有“嵌套結構”是不夠的。不過,公平地說,這是有多少本書描述了何時使用多級模型。例如,我剛剛從我的書架上取下了 Joop Hox 的《多層次分析》一書,它給出了以下定義:
多層次問題涉及具有層次結構的人口。
即使在一本非常好的教科書中,最初的定義似乎也是循環的。我認為這部分是由於確定何時使用哪種模型(包括多級模型)的主觀性。
另一本書 West、Welch 和 Galecki 的線性混合模型說這些模型適用於:
結果變量,其中殘差呈正態分佈,但可能不是獨立的或具有恆定方差。導致可以使用 LMM 進行適當分析的數據集的研究設計包括 (1) 具有聚類數據的研究,例如教室中的學生,或具有隨機塊的實驗設計,例如工業過程的原材料批次,以及 (2)縱向或重複測量研究,其中受試者在一段時間內或在不同條件下重複測量。
Finch, Bolin, & Kelley在 R 中的 Multilevel Modeling還談到了違反 iid 假設和相關殘差:
在多級建模的背景下,特別重要的是假設[在標準回歸中]樣本中各個觀察值的獨立分佈的誤差項。這個假設本質上意味著一旦分析中的自變量被考慮在內,樣本中的個體之間就沒有因變量的關係。
我相信,當有理由相信觀察不一定彼此獨立時,多層次模型是有意義的。無論什麼“集群”解釋了這種非獨立性,都可以建模。
一個明顯的例子是教室裡的孩子——他們都在相互交流,這可能導致他們的考試成績不獨立。如果一個教室有人提出的問題導致該課程涵蓋了其他課程未涵蓋的材料怎麼辦?如果老師在某些課程上比其他課程更清醒怎麼辦?在這種情況下,會有一些數據的非獨立性;用多層次的話來說,我們可以預期因變量的一些變化是由於集群(即類)造成的。
我認為,您的狗與大象的例子取決於感興趣的自變量和因變量。例如,假設我們要問咖啡因是否對活動水平有影響。來自動物園各地的動物被隨機分配獲得含咖啡因的飲料或對照飲料。
如果我們是對咖啡因感興趣的研究人員,我們可能會指定一個多級模型,因為我們真的很關心咖啡因的影響。該模型將被指定為:
activity ~ condition + (1+condition|species)
如果有大量物種我們正在測試這個假設,這將特別有用。然而,研究人員可能對咖啡因的物種特異性影響感興趣。在這種情況下,他們可以將物種指定為固定效應:
activity ~ condition + species + condition*species
如果有 30 個物種,這顯然是一個問題,創建一個笨拙的 2 x 30 設計。但是,您可以通過如何建模這些關係來獲得相當的創意。
例如,一些研究人員正在主張更廣泛地使用多級建模。Gelman, Hill, & Yajima (2012)認為,多級建模可以用作多重比較的校正——即使在數據結構本質上不是明顯分層的實驗研究中:
當對具有更多結構的多重比較進行建模時,會出現更難的問題。例如,假設我們有五種結果測量、三種治療方法以及按兩種性別和四個種族分類的亞組。我們不想將這個 2 × 3 × 4 × 5 的結構建模為 120 個可交換組。即使在這些更複雜的情況下,我們認為多級建模應該並且最終將取代經典的多重比較程序。
問題可以用多種方式建模,在模棱兩可的情況下,多種方法可能看起來很有吸引力。我認為我們的工作是選擇一種合理、知情的方法,並以透明的方式進行。