隨機效應模型中每個集群的最小樣本量

January 24, 2019

隨機效應模型中每個集群的觀察次數是否合理？我的樣本量為 1,500，其中 700 個集群被建模為可交換隨機效應。我可以選擇合併集群以構建更少但更大的集群。我想知道如何選擇每個集群的最小樣本量，以便在預測每個集群的隨機效應時獲得有意義的結果？有沒有很好的論文來解釋這一點？

TL;DR：混合效果模型中每個集群的最小樣本量為 1，前提是集群的數量足夠，並且單例集群的比例不是“太高”

更長的版本：

一般來說，集群的數量比每個集群的觀察數量更重要。有了700，顯然你沒有問題。

小集群規模很常見，尤其是在遵循分層抽樣設計的社會科學調查中，並且有大量研究調查了集群級別的樣本規模。

雖然增加集群大小會增加估計隨機效應的統計能力（Austin & Leckie, 2018），但小集群大小不會導致嚴重的偏差（Bell et al, 2008; Clarke, 2008; Clarke & Wheaton, 2007; Maas & Hox , 2005)。因此，每個集群的最小樣本量為 1。

特別是，Bell 等人（2008 年）進行了一項蒙特卡洛模擬研究，其中單例集群（僅包含一個觀測值的集群）的比例從 0% 到 70% 不等，並發現，如果集群的數量很大（~ 500）小集群大小對偏差和類型 1 錯誤控制幾乎沒有影響。

他們還報告了在任何建模場景下的模型收斂問題都很少。

對於 OP 中的特定場景，我建議首先運行具有 700 個集群的模型。除非這有明顯的問題，否則我不願意合併集群。我在 R 中運行了一個簡單的模擬：

在這裡，我們創建了一個剩餘方差為 1 的聚類數據集，單個固定效應也為 1，700 個聚類，其中 690 個是單例，10 個只有 2 個觀察值。我們運行模擬 1000 次並觀察估計的固定和殘餘隨機效應的直方圖。
> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) { 
  dtB$x <- rnorm(nrow(dtB), 0, 1)
dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1

  fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
  fixef.v[i] <- fixef(fm0B)[[2]]
  ranef.v[i] <- attr(VarCorr(fm0B), "sc")
}
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)
如您所見，固定效應被很好地估計了，而殘餘隨機效應似乎有點向下偏差，但不是很大：
> summary(fixef.v)
  Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
0.6479  0.9439  0.9992  1.0005  1.0578  1.2544 
> summary(ranef.v)
  Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
0.2796  0.7745  0.9004  0.8993  1.0212  1.4837 
OP特別提到了集群級隨機效應的估計。在上面的模擬中，隨機效應被簡單地創建為每個SubjectID 的值（按比例縮小 100 倍）。顯然這些不是正態分佈的，這是線性混合效應模型的假設，但是，我們可以提取集群級效應的（條件模式）並將它們與實際SubjectID 進行對比：
> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)
直方圖在某種程度上偏離了常態，但這是由於我們模擬數據的方式。估計的隨機效應和實際的隨機效應之間仍然存在合理的關係。

參考：

Peter C. Austin & George Leckie (2018) The effect of clusters of number of clusters and cluster size on statistics power and Type I error rate when testing random effects variance components in multilevel linear and logistic regression models, Journal of Statistical Computation and Simulation, 88： 16, 3151-3163, DOI: 10.1080/00949655.2018.1504945

Bell, BA, Ferron, JM, & Kromrey, JD (2008)。多級模型中的簇大小：稀疏數據結構對兩級模型中點和區間估計的影響。JSM Proceedings，調查研究方法部分，1122-1129。

克拉克，P.（2008 年）。什麼時候可以忽略組級聚類？多級模型與稀疏數據的單級模型。流行病學和社區健康雜誌，62（8），752-758。

Clarke, P. 和 Wheaton, B. (2007)。使用聚類分析解決上下文人口研究中的數據稀疏問題以創建合成鄰域。社會學方法與研究，35（3），311-351。

馬斯，CJ 和霍克斯，JJ（2005 年）。為多級建模提供足夠的樣本量。方法論，1（3），86-92。