Multivariate-Analysis

多級多元元回歸

  • August 13, 2015

背景:

我想使用具有(1)多個結果/結構(=多變量)和(2)由於測量不同而對這些結果中的每一個具有多種效應大小的研究進行元回歸。這是一個希望能最好地解釋它的方案:

  • 研究 1,結果 A,效應量 1
  • 研究 1,結果 A,效應量 2
  • 研究 1,結果 B,效應量 3
  • 研究 2,結果 A,效應量 4
  • 研究 2,結果 C,效應量 5
  • 研究 2,結果 C,效應量 6

研究比較了兩組不同結果的平均值,效應大小是 Hedge 的 g。

一個實際的例子是“工作記憶”,它可以分為不同的結果(Baddeley,1974),例如“語音循環”、“視覺空間畫板”或“中央執行”。

例如,研究 1 用兩種不同的度量(= 影響大小 1 和 2)評估“語音循環”(結果 A)和用一種度量(= 影響大小 3)評估“中央執行官”(結果 B)。

問題:

適當的多變量方法需要知道效應大小和結果之間的每一個相關性,以估計協方差。但是我不知道(1)同一研究中不同效應大小之間的相關性以及(2)不同研究結果之間的相關性。我可以估計它們或嘗試找到至少一些相關性來使用,但這意味著我想避免大量額外的文獻搜索。

解決方案(到目前為止):

我遇到了一些處理類似問題的方法。

穩健方差估計(Hedges,2010)是處理多種效應大小的好方法。然而,我仍然必須猜測相關性並進行敏感性分析,而且似乎不可能比較幾個結果(即只有單變量元回歸)。

Van den Noorgate 的多級方法(2014 年)很有前景,因為它不需要通過允許研究中效應大小之間和效應大小之間的變化來估計任何相關性。描述了多水平多元薈萃分析(= 不同的結果和多效應大小,如上述方案)和多水平單變量元回歸(= 多效應大小但結果之間沒有差異)。

使用 R 中的 metafor 包我想知道是否可以結合多級方法並執行多級多元元回歸。此處給出了使用 metafor 的多級元分析和多元元回歸的示例http://www.metafor-project.org/doku.php/analysiss:konstantopoulos2011(多級)和此處http://www.metafor- project.org/doku.php/analyses:berkey1998(多變量)。(請注意,上面鏈接的多級示例實際上描述了一種處理分層依賴關係的方法(例如,由同一研究實驗室進行的研究)。相反,我使用 Van den Noorgate 描述的多級方法。)

變量:

***ES:***影響大小(Hedge’s g)

***VI:***影響大小的方差

***Pub_Year:***作為元回歸中的預測變量的出版年份

***ES_ID:***每個影響大小都有一個唯一的 ID,無論它們屬於哪個研究或結果。

***Outcome_ID:***相同的結果具有相同的 ID(例如“Phonological Loop”=1,“Central Executive”=2),無論它們屬於哪個研究。

***Study_ID:***同一研究的效應量具有相同的 ID(例如,研究 1 的效應量=1,研究 2 的效應量=2),無論它們屬於哪個結果。

用於多級多元薈萃分析的 metafor 中的 R 代碼:

rma.mv(ES, VI, mods = ~ Outcome_ID -1, random = list(~ 1 | Study_ID, ~ 1 | ES_ID), data=data.set)

  • mods = ~ Outcome_ID -1要求採用多變量方法並列出每個結果的平均效應大小。
  • *random = list(~ 1 | Study_ID, ~ 1 | ES_ID)*是 Van den Noorgate 描述的多級方法。它允許研究中的效應大小(~ 1 | Study_ID)和效應大小(~ 1 | ES_ID)之間的隨機變化。您也可以使用 metaSEM 包進行此分析。結果是相同的。

用於多級多元元回歸的 metafor 中的 R 代碼:

rma.mv(ES, VI, mods = ~ Outcome_ID + Outcome:I(Pub_Year-mean(Pub_Year)) -1, random = list(~ 1 | Study_ID, ~ 1 | ES_ID), 數據=data.set)

  • mods = ~ Outcome_ID + Outcome:I(Pub_Year-mean(Pub_Year)) -1現在要求使用以均值為中心的多元元回歸作為預測變量。

使用 metafor 中的 profile() 選項,Profile Likelihood Plots 看起來不錯。但是我仍然想知道我是否沒有過度參數化模型,或者以這種方式組合 mods- 和 random-arguments 時是否有問題。

期待您的意見、建議、想法、其他方法,一切;-) 謝謝!


更新,回應沃爾夫岡的回答:

首先:非常感謝您的詳細回答和您提供的其他鏈接。我不知道 R-sig-mixed-models 郵件列表。那謝謝啦!我很感激。

讓我試著總結一切,並根據我的情況進行調整,看看我是否理解這裡的事情。我可以做以下事情:

  1. 獲得相關性:不幸的是,沒有報告相關性。最初,薈萃分析包括 50 多項研究。近一半的研究缺少或未報告數據。聯繫了這些研究的每一位作者,我收到了 26 個請求中的 4 個回复(等待 2 個月後)。但這是一個一般性的報告問題,此處不予討論。
  2. 如果我對所有相關性做一個粗略的猜測,我可以:像Berkey 等人

那樣進行多元薈萃分析和薈萃回歸。(1998)示例並進行敏感性分析。

使用這個擬合的多元薈萃分析模型並使用robust() 函數。然而,在 metafor 中似乎沒有基於 robust() 函數的元回歸。James Pustejovsky 的博客中描述的 robust() 函數僅適用於單變量元回歸。所以,如果我理解正確的話,robust() 函數的估計或多或少地證實了我已經擬合的模型的估計(?)。

直接使用健壯的方法並使用 robumeta 包。然而,不可能進行多變量薈萃分析。我找到了一個SAS 代碼來處理這個問題。但代碼是 3 年前開發的,似乎從未真正討論過。最後,在使用 robumeta 時,我必須將許多不同的結果匯總到一個龐大的薈萃分析中,或者我必須對我想避免的每個結果進行幾次單變量薈萃分析。 3. 如果我不想猜測任何相關性,我可以使用 Van den Noorgate 使用 metafor、metaSEM 或 SAS 描述的多級方法。然而,與基於相關性的多元方法相比,使用這種方法存在一些限制。此外,我不確定多級多元元回歸是否可行。metaSEM 包僅描述了多級多變量薈萃分析或多級單變量薈萃回歸。

不幸的是,我對在薈萃分析中使用重採樣方法並不熟悉。我研究了你的例子,但我不確定它如何幫助我解決“相關/多變量”問題。你的意思是我應該嘗試使用自舉來估計相關性嗎?如果是這樣,我不確定哪些值應該相關,因為研究內和研究之間的均值或效應大小的數量不同。

Riley 及其同事描述的模型的簡化聽起來很有趣。儘管我想使用上述方法之一,但我牢記在心。

正如您所注意到的,為每個研究添加隨機效應和為每個結果添加隨機效應的模型是一個解釋層次依賴性的模型。該模型允許將研究中的真實結果/效果關聯起來。這是您鏈接到的Konstantopoulos (2011)示例。

但是這個模型仍然假設研究中觀察到的結果/效果的抽樣誤差是獨立的,當這些結果在同一個人中評估時,情況肯定不是這樣。所以,就像在伯基等人中一樣。(1998)您鏈接到的示例,理想情況下,您需要構建採樣誤差的整個方差 - 協方差矩陣(沿對角線的採樣方差)。Gleser 和 Olkin (2009)的研究綜合和薈萃分析手冊中的章節描述瞭如何計算各種結果測量的協方差(包括標準化均值差)。該章中的分析/方法在此處複製(您正在處理多端點情況)。

正如您所指出的,這樣做需要了解研究中的實際測量值是如何相關的。使用您的示例,您需要知道研究 1 的“語音循環”的兩個測量值之間的相關性有多強(更準確地說,有兩個相關性,一個用於第一組,一個用於第二組,但我們通常假設兩組的相關性相同),以及這些測量與“中央執行官”測量的相關性有多強。因此,總共三個相關性。

獲得/提取這些相關性通常很困難,如果不是不可能的話(因為它們通常沒有被報告)。如果您確實無法獲得它們(即使在聯繫研究作者以試圖獲得缺失的信息之後),有幾種選擇:

  1. 人們仍然可以經常做出粗略/有根據的猜測相關性有多大。然後我們使用這些“猜測”並進行敏感性分析,以確保當值在合理範圍內變化時結論保持不變。
  2. 可以使用穩健的方法——本質上,我們認為假設的採樣誤差的方差-協方差矩陣被錯誤指定(即,我們假設它是對角線,而實際上我們知道它不是),然後估計方差-即使在這種模型錯誤指定的情況下,使用一致的方法的固定效應(通常是主要興趣)的協方差矩陣。這實質上就是您提到的 Hedges、Tipton 和 Johnson (2010) 所描述的方法。
  3. 重採樣方法(即自舉和置換測試)也可以工作。
  4. 還有一些替代模型試圖通過模型的一些簡化來規避這個問題。具體來說,在 Riley 及其同事的模型/方法中(參見,例如:Riley, Abrams, Lambert, Sutton, & Thompson, 2007, Statistics in Medicine, 26, 78-97),我們假設抽樣誤差之間的相關性與潛在真實效果之間的相關性相同,然後我們只估計一個相關性。這可以工作,但它是否有效取決於簡化與現實的匹配程度。
  5. 總是有另一種選擇:通過減少數據來避免任何類型的統計依賴(例如,只選擇一個估計值,對不同的結果進行單獨的分析)。這仍然是“處理”問題最常用的方法,因為它允許從業者堅持使用他們已經熟悉的(相對簡單的)模型/方法/軟件。但這種方法可能會造成浪費並限制推理(例如,如果我們對結果 A 和 B 進行兩次單獨的薈萃分析,我們無法測試 A 和 B 的估計效果是否不同,除非我們能夠再次正確解釋它們的協方差)。

注意:在 R-sig-mixed-models 郵件列表中討論了同樣的問題,本質上我是在重複我已經在那裡發布的內容。見這裡

對於穩健的方法,您可以嘗試使用robumeta包。如果您想堅持下去metafor,您會發現James Pustejovsky 的這些博客帖子感興趣。他還在開發另一個包,稱為clubSandwich,它增加了一些額外的小樣本校正。您還可以嘗試metafor(請參閱此處)的開發版本——它包含一個名為的新函數robust(),您可以在擬合模型後使用該函數來獲得集群穩健性測試和置信區間。您可以在此處找到一些代碼來幫助您開始引導。

引用自:https://stats.stackexchange.com/questions/166964

comments powered by Disqus