R

將多級模型擬合到 R 中的複雜調查數據

  • March 7, 2014

我正在尋找有關如何在 R 中使用多級模型分析複雜調查數據的建議。我已使用該survey軟件包來衡量單級模型中不等的選擇概率,但該軟件包沒有多級建模的功能。該lme4軟件包非常適合多級建模,但我知道沒有一種方法可以在不同的聚類級別包含權重。Asparouhov (2006)提出了這個問題:

多級模型經常用於分析來自整群抽樣設計的數據。然而,這種抽樣設計通常在集群級別和個人級別使用不等的選擇概率。抽樣權重分配在一個或兩個級別以反映這些概率。如果在任一級別忽略抽樣權重,則參數估計可能會出現很大偏差。

用於兩級模型的一種方法是在 MPLUS 中實現的多級偽最大似然 (MPML) 估計器(Asparouhov 等人,?)。Carle (2009)回顧了主要的軟件包並就如何進行提出了一些建議:

為了正確使用複雜的調查數據和設計權重進行 MLM,分析人員需要能夠包含在程序之外縮放的權重並包含“新”縮放權重而無需自動修改程序的軟件。目前,三個主要的傳銷軟件程序允許這樣做:Mplus (5.2)、MLwiN (2.02) 和 GLLAMM。不幸的是,HLM 和 SAS 都無法做到這一點。

West 和 Galecki (2013)給出了更新的評論,我將詳細引用相關段落:

有時,分析師希望將 LMM 擬合到調查從具有復雜設計的樣本中收集的數據集(參見 Heeringa 等人,2010 年,第 12 章)。複雜樣本設計的一般特徵是將人口劃分為多個階層,從階層內多階段選擇個體集群,以及集群和最終抽樣個體的選擇概率不相等。這些不等的選擇概率通常會導致構建個體的抽樣權重,從而確保在納入分析時對描述性參數進行無偏估計。這些權重可能會針對調查不答復進一步調整,併校準到已知的人口總數。傳統上,在估計回歸模型時,分析師可能會考慮採用基於設計的方法來整合這些複雜的抽樣特徵(Heeringa 等,2010)。最近,統計學家開始探索基於模型的方法來分析這些數據,使用 LMM 將抽樣層的固定效應和抽樣集群的隨機效應結合起來。

開發基於模型的方法來分析這些數據的主要困難是選擇合適的方法來合併抽樣權重(有關問題的摘要,請參見 Gelman,2007 年)。普費弗曼等人。(1998 年)、Asparouhov 和 Muthen(2006 年)以及 Rabe-Hesketh 和 Skrondal(2006 年)開發了以結合調查權重的方式估計多級模型的理論,以及 Rabe-Hesketh 和 Skrondal(2006 年)、Carle(2009 年)和 Heeringa 等人。(2010 年,第 12 章)介紹了使用當前軟件程序的應用程序,但這仍然是統計研究的一個活躍領域。能夠擬合 LMM 的軟件程序處於實施迄今為止文獻中提出的用於結合複雜設計特徵的方法的不同階段,分析人員在將 LMM 擬合到復雜的樣本調查數據時需要考慮這一點。有興趣將 LMM 擬合到從復雜樣本調查中收集的數據的分析師將被吸引到能夠正確地將調查權重納入估計程序(HLM、MLwiN、Mplus、xtmixed 和 gllamm)的程序,這與本文中的現有文獻一致區域。

這讓我想到了我的問題:是否有人有將 LMM 擬合到 R 中復雜調查數據的最佳實踐建議?

據我所知,如果您確實需要混合模型(例如,如果您關心方差分量),那麼您目前無法在 R 中真正做到這一點

的 weights 參數lme4::lmer() 不會做你想要的,因為lmer()將權重解釋為精確權重而不是採樣權重。與普通線性和廣義線性模型相比,您甚至無法使用將採樣權重視為混合模型的精確權重的代碼獲得正確的點估計。

如果您不需要估計方差分量並且只希望模型的多級特徵能夠獲得正確的標準誤差,您可以使用survey::svyglm().

引用自:https://stats.stackexchange.com/questions/89204

comments powered by Disqus