為什麼我們要匹配因果推理與回歸混雜因素?
我是因果推理領域的新手。據我了解,因果推理試圖解決的主要問題之一是混雜因素的影響!
為了便於參考,讓我們用A表示我們感興趣的特徵(也就是治療或暴露) ,用X表示其他特徵(假設其中一些是混雜因素),用Y表示結果。
我專注於我們所有的混雜因素都可以觀察到的情況。我也僅限於我們想要估計平均治療效果的情況。
我們有以下簡單的 DAG:
所以可能有兩種情況:
- A 是分類的
- A 是連續的
正如我從概念上理解的那樣,匹配的整個想法是邊緣化治療A對結果Y的影響,導致可忽略性假設成立,這在概念上就像通過使協變量的分佈在觀察數據中相似來複製隨機試驗。
我想知道它在概念上與我們對所有變量進行多元回歸時的概念是否相同?所以每個係數的解釋將是每個特徵對結果的邊際效應!
我錯過了什麼?是什麼阻止我們進行多元回歸以控制混雜因素並轉化為匹配?
在我看來,考慮匹配而不是回歸有兩個相關的原因。第一個是關於功能形式的假設,第二個是關於向您的聽眾證明功能形式假設不會影響最終的效果估計。第一個是統計問題,第二個是認知問題。考慮下面的故事,它試圖說明匹配和回歸之間的選擇如何發揮作用。
我們假設您已經測量了足夠的調整集來滿足後門標準(即,所有相關的混雜因素都已測量),沒有測量錯誤或缺失數據,並且您的目標是估計治療的邊際治療效果結果。我們還將假設積極性和 SUTVA 的標准假設成立。我們將首先考慮持續的結果,但大部分討論都延伸到一般結果。
第 1 部分:回歸
您決定對治療和混雜因素的結果進行回歸,以控制這些變量的混雜,因為這是線性回歸應該做的。然而,效果估計只有在極其嚴格的情況下才無偏。首先,治療效果在混雜因素的水平上是恆定的,其次,線性模型描述了結果和混雜因素之間的條件關係。首先,您可能包括治療和每個混雜因素之間的相互作用,在估計邊際效應的同時允許異質治療效應。這等價於 g-computation (1),
這仍然假設治療和控制結果的線性模型。好的,我們將改用隨機森林等靈活的機器學習方法。好吧,現在我們不能聲稱我們的估計器是無偏的,只有可能是一致的,它仍然需要特定的機器學習模型以一定的速度接近真相。好的,我們將使用 Superlearner (2),這是一種堆疊方法,它採用其包含的最快模型的收斂速度。好吧,現在我們沒有辦法進行推理,模型可能仍然是錯誤的。好的,我們將使用半參數高效雙魯棒估計器,如增強逆概率加權 (AIPW) (3) 或目標最小基於損失的估計 (TMLE) (4)。好吧,只有當真正的模型屬於 Donsker 模型類時,這才是一致的。好的,我們
偉大的。您已經將回歸帶到了極端,盡可能多地放寬假設並使用具有普遍良好推理屬性的多重魯棒估計器(多重魯棒的意思是,如果許多模型之一是正確的,則估計器是一致的)(但它可以自舉,因此使方差完全正確並不是一個大問題)。我們解決了因果推理嗎?
您使用 Superlearner 提交交叉擬合 TMLE 估計的結果,以獲得傾向得分和潛在結果模型,並使用包含高度自適應套索和許多其他模型的完整庫,在弱假設下,這些都是真正一致的估計器所需的全部以參數速率收斂。
一位審稿人讀了這篇論文後說:“我不相信這個模型的結果。”
“為什麼不?” 你說。“我使用了具有最佳屬性的最優估計器;它是一致的和半參數有效的,對模型的功能形式的假設很少(如果有的話)。”
“你的估計是一致的,”審稿人說,“但不是無偏的。這意味著我只能相信它的一般結果,並且隨著 N 趨於無窮大。我怎麼知道你已經成功地消除了這個數據集中效應估計中的偏差? "
“……”
第 2 部分:匹配救援
您閱讀了一種名為“傾向得分匹配”的熱門新方法 (6)。它在 1983 年很重要,即使在 2021 年,你幾乎可以在專業醫學期刊上發表的每篇論文中看到它。您會看到 King 和 Nielsen 的有影響力的論文“Why Propensity Scores shall not be used for Matching”(7) 和 Noah 的回答在 CV 上描述了使用傾向得分匹配的許多缺點。好的,您將改用遺傳匹配 (8),並最小化樣本之間的能量距離 (9),包括靈活估計的傾向得分作為要匹配的協變量。您發現可以通過使用實質性知識結合精確匹配和卡尺約束來改善平衡,這些約束優先考慮對結果很重要的協變量的平衡。您決定使用完全匹配來放寬 1:1 匹配的要求,以便在分析中包含更多單元 (10)。
您可以使用對治療和協變量的結果進行簡單線性回歸來估計治療效果,包括回歸中的匹配權重,並使用聚類穩健標準誤差來解釋配對成員資格 (11)。您重新提交完全匹配分析的結果,使用精確匹配和卡尺對預測重要變量以及使用協變量上的遺傳匹配和靈活估計的傾向得分進行估計的距離矩陣進行估計。
審稿人閱讀您的新手稿。“哇,你學到了很多東西。但我仍然不相信你已經消除了效果估計中的偏差。”
“看看餘額表,”你說。“協變量分佈幾乎相同。”
“我看到低標準化平均差異,”評論者說,“但協變量分佈的其他特徵可能仍然存在不平衡。”
“查看附錄中的平衡表,其中包含成對交互的平衡統計、每個協變量的 5 次方多項式,以及用於比較完整協變量分佈的 Kolmogorov-Smirnov 統計。樣本之間沒有有意義的差異,也沒有由於精確匹配的約束和卡尺,在最高度預測的協變量上完全不同。”
“我明白…”
“此外,我使用了 Branson 的隨機化檢驗 (12),將能量距離作為平衡統計量,以表明我的樣本不僅比使用相同數據的假設隨機試驗,而且比塊隨機試驗甚至協變量更平衡平衡約束的隨機試驗。”
“哇,我想我也沒什麼好說的了……”
“我的結果回歸估計量不僅一致,而且在這個樣本中確實沒有**偏見。此外,由於我將配對成員納入分析,我的標準誤差更小、更準確,結果估計對未觀察到的混雜不太敏感* (13 )。”
“我知道了!”
第 3 部分:批評
弗蘭克哈雷爾衝進房間。“等等,通過在匹配中丟棄這麼多單位,你已經丟棄了這麼多有用的數據,並且不必要地降低了你的精度。” 馬克·范德蘭緊隨其後。“等等,通過使用實質性的‘專業知識’,你不會讓分析方法在數據中找到可能無法讓研究人員發現的真實模式,而且你的估計器不會以已知的速率收斂,更不用說參數了!而且沒有保證你的推論是有效的!” 我,你謙遜的敘述者,也加入了狗堆。“等等,通過使用精確匹配的約束和卡尺,您已經將估計值從 ATE 或任何先驗可描述的估計值中移開 (14)!您的效果估計值可能是無偏的,但對什麼沒有偏倚?”
你站在那裡,不知所措,被打敗了,自從你在 CrossValidated 上問了幾年前的簡單問題後,你感覺自己一無所獲,更接近於理解是否應該使用匹配或回歸來估計因果效應。
窗簾關閉。
第 4 部分:結語
面對不確定性和稀缺性,我們不得不做出權衡。在基於回歸的方法和估計因果效應的匹配之間進行選擇取決於您和您的受眾如何選擇管理這些權衡並優先考慮每種方法的優缺點。
標準回歸需要強大的函數形式假設,但使用先進的方法,可以放寬這些假設,代價是放棄偏見並專注於一致性和漸近推理。許多這些先進的方法在大樣本中效果最好,並且在此過程中它們仍然需要許多選擇(例如,使用哪個特定的估計器,在 Superlearner 庫中包含哪些機器學習方法,使用多少折疊進行交叉驗證和交叉擬合等)。儘管乘法魯棒方法可以保證一般數據的一致性和快速收斂速度,但目前尚不清楚如何評估它們消除數據集中偏差的程度,可能會讓人懷疑它們在一個實例中的實際性能。
匹配方法需要很少的函數形式假設,因為不需要模型(例如,當使用不完全依賴於傾向得分的距離矩陣時,例如由遺傳匹配產生的)。您可以通過調整匹配規範來控制混雜,將更多精力集中在難以平衡或預測重要的變量上。您可以通過確保實現協變量平衡來接近保證公正性,這可以而且應該在懷疑者的情況下進行極其廣泛的衡量。您可以使用工具來分析隨機試驗和具有更強大和穩健設計的試驗。這可能會通過丟棄大量數據來降低您的精度,更改您的估計值,以便您的效果估計不會推廣到有意義的人群,並且不是
優勢匹配優於回歸,以及為什麼我認為它如此有價值以及為什麼我將研究生培訓用於理解和改進匹配以及應用研究人員作為 R 包的作者使用它的原因
cobalt
,,WeightIt``MatchIt
等,是認知優勢。通過匹配,您可以更有效地讓讀者相信您所做的事情是值得信賴的,並且您已經考慮了對觀察結果的所有可能反對意見,並且至少可以指出具體假設並解釋它們的違反可能如何影響結果。這一切都集中在協變量平衡上,即跨治療組的協變量分佈之間的相似性。通過廣泛地報告平衡並將生成的匹配數據提交給一系列測試和平衡測量,您可以讓自己和您的讀者相信,由此產生的效果估計是無偏的,因此是值得信賴的(考慮到開頭提到的假設,儘管這些假設可能很脆弱, 匹配和回歸都不能解決這個問題)。然而,並不是每個人都同意這種優勢如此重要,或者比一致性和有效的漸近推理更重要。在這個問題上永遠不可能達成共識,因為共識需要知道真相,而科學(包括統計研究)是關於尋找本質上不可知的真相(即,支配或描述我們世界的真實參數)。也就是說,如果我們知道真正的因果效應,我們就可以知道估計它的最佳方法,但我們不知道,所以我們不能。我們只能利用我們所擁有的知識盡力而為,並儘可能地管理固有的約束和權衡,因為我們在黑暗中摸索著使用宇宙向我們展示的精確光點。
*僅在對匹配樣本使用特殊推理方法時。
- 斯諾登 JM、羅斯 S、莫蒂默 KM。在模擬數據集上實現 G 計算:因果推理技術的演示。我是流行病學雜誌。2011;173(7):731–738。
- 范德蘭 MJ、波利 EC、哈伯德 AE。超級學習者。遺傳學和分子生物學中的統計應用[電子文章]。2007 年;6(1)。(https://www.degruyter.com/view/j/sagmb.2007.6.issue-1/sagmb.2007.6.1.1309/sagmb.2007.6.1.1309.xml)。(2019 年 10 月 8 日訪問)
- 丹尼爾 RM。雙重魯棒性。在:Wiley StatsRef:在線統計參考。美國癌症協會;2018(2018 年 11 月 9 日訪問):1-14。(http://onlinelibrary.wiley.com/doi/abs/10.1002/9781118445112.stat08068)。(2018 年 11 月 9 日訪問)
- 格魯伯 S,范德蘭 MJ。目標最大似然估計:簡要介紹。2009 年;17。
- Zivich PN, Breskin A. 因果推理的機器學習:關於交叉擬合估計器的使用。流行病學。2021;32(3):393–401。
- 羅森鮑姆公關,魯賓 DB。傾向評分在因果效應的觀察性研究中的核心作用。生物計量學。1983;70(1):41-55。
- King G,Nielsen R. 為什麼不應使用傾向得分進行匹配。政治。肛門。2019;1-20。
- 鑽石 A,Sekhon JS。用於估計因果效應的遺傳匹配:一種在觀察性研究中實現平衡的通用多元匹配方法。經濟與統計評論。2013;95(3):932–945。
- Huling JD, Mak S. 協變量分佈的能量平衡。arXiv:2004.13962 [stat] [電子文章]。2020;(http://arxiv.org/abs/2004.13962)。(2020 年 12 月 22 日訪問)
- 斯圖爾特 EA,格林 KM。使用完全匹配來估計非實驗研究中的因果效應:檢查青少年大麻使用與成人結果之間的關係。發展心理學。2008;44(2):395–406。
- Abadie A, Spiess J. 穩健的匹配後推理。美國統計協會雜誌。2020;0(ja):1-37。
- Branson Z. 設計和分析匹配數據集時評估協變量平衡的隨機化測試。觀察性研究。2021 年;7:44–80。
- Zubizarreta JR、Paredes RD、Rosenbaum PR。在智利營利性和非營利性高中有效性的觀察性研究中,平衡匹配,異質性配對。應用統計年鑑。2014;8(1):204-231。
- Greifer N,斯圖爾特 EA。在觀察性研究中匹配或加權時選擇估計值。arXiv:2106.10577 [stat] [電子文章]。2021;(http://arxiv.org/abs/2106.10577)。(2021 年 9 月 17 日訪問)