Time-Series

多站點研究的混合模型與匯集標準誤差 - 為什麼混合模型效率更高?

  • August 31, 2012

我有一個數據集,其中包含來自少數幾個站點的一系列“斷棒”月度病例數。我試圖從兩種不同的技術中得到一​​個單一的總結估計:

技術 1:使用具有 0/1 指標變量的 Poisson GLM 擬合“斷棒”,並使用時間和時間^2 變量來控制時間趨勢。該 0/1 指標變量的估計值和 SE 使用非常直接的矩量技術上下方法進行合併,或者使用 R 中的 tlnise 包來獲得“貝葉斯”估計值。這與 Peng 和 Dominici 對空氣污染數據所做的類似,但站點較少(大約十幾個)。

技術 2:放棄一些針對時間趨勢的特定於站點的控制,並使用線性混合模型。特別:

lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)

我的問題涉及來自這些估計的標準誤差。技術 1 的標準誤差實際上是使用每周而不是每月的時間設置,因此應該具有更高的精度,對於矩量法的估計標準誤差約為 0.206,對於 tlnise 的估計約為 0.306。

lmer 方法給出的標準誤差約為 0.09。效果估計值相當接近,因此它們似乎並不只是將不同的匯總估計歸零,因為混合模型的效率要高得多。

這是合理的預期嗎?如果是這樣,為什麼混合模型效率更高?這是普遍現象,還是該模型的特定結果?

我知道這是一個老問題,但它相對流行並且有一個簡單的答案,所以希望它對未來的其他人有所幫助。如需更深入的了解,請查看 Christoph Lippert 的線性混合模型課程,該課程在此處在全基因組關聯研究的背景下對其進行檢查。具體參見第 5 講

混合模型工作得更好的原因是它旨在準確考慮您要控制的內容:人口結構。您研究中的“人群”是不同的站點,例如,使用相同協議的略有不同但一致的實現。此外,如果您的研究對像是人,則來自不同站點的人比來自同一站點的人更不可能相關,因此血液相關性也可能起作用。

與我們擁有的標準最大似然線性模型相反,線性混合模型添加了一個稱為核矩陣的附加矩陣,它估計個體之間的相似性,並擬合“隨機效應”,使相似的個體具有相似的隨機效應。這產生了模型.

因為您正試圖明確控制人口結構,所以線性混合模型優於其他回歸技術也就不足為奇了。

引用自:https://stats.stackexchange.com/questions/35414

comments powered by Disqus