我應該使用機器學習模型來計算傾向得分嗎?
在我的研究中,運行一個簡單的線性模型來計算每個示例的去傾向得分似乎無法正確模擬我的治療選擇過程。我的問題是,使用“更強”的模型(svm,nn,你的名字)來嘗試獲得更精確的傾向得分是否有意義?
先感謝您!
有兩種方法可以對傾向得分進行建模。一種是嘗試盡可能接近治療分配過程,另一種是獲得產生協變量平衡的傾向得分。
第一種方法依賴於這樣的發現,即在格式良好的傾向得分上進行平衡可以完全平衡所有預處理協變量(即,它們的整個聯合分佈)。這就是 Rosenbaum & Rubin (1983) 的發現以及傾向得分變得如此重要的原因。這樣做的一個問題是,幾乎沒有希望對治療過程進行正確建模以獲得傾向得分,而且一些證據表明,即使正確地對其進行參數建模也是低效的(Kim,2019 年)。已經開發了許多替代方案,它們使用機器學習方法來靈活地對傾向得分進行建模。我見過的最有效的兩個是貝葉斯加性回歸樹(BART;Hill,2011;應用於傾向得分建模 Hill 等人,2011 年)和 SuperLearner(Pirrachio 等人,2015 年)。BART 是一種樹總和方法,它使用貝葉斯先驗來防止過度擬合,同時允許模型非常靈活。SuperLearner 是一種堆疊方法,允許您提供許多不同的機器學習方法,它要么選擇最好的方法,要么採用它們的最佳加權組合。如果任何機器學習方法接近真實模型,SuperLearner 的性能將與最好的(漸近地)一樣好或更好。
另一種方法涉及估計產生平衡的傾向得分。我將平衡定義為結果模型中每個術語的均值在治療組之間相同的情況。例如,如果結果模型是 $ Y=\tau Z + \beta_1 X_1 + \beta_2 X_2 + \epsilon $ 在哪裡 $ X_2 = \exp(X_1) $ 和 $ Z $ 是治療,平衡是什麼時候 $ \bar{X}^1_1 - \bar{X}^0_1 $ 和 $ \bar{X}^1_2 - \bar{X}^0_2 $ 接近 $ 0 $ , 在哪裡 $ \bar{X}^z_p $ 是平均值 $ X_p $ 在治療組 $ z $ . 在採用這種方法時,建議分析師嘗試許多不同的傾向評分模型來找到實現平衡的模型,無論它是否模仿真正的治療分配機制(Ho et al., 2007)。有一些傾向得分估計方法將平衡作為其估計的一部分:廣義提升建模的 TWANG 實現 (McCaffrey, Ridgeway, & Morral, 2004) 從基於平衡的提升分類中選擇用於計算預測值的樹數用戶選擇的標準。協變量平衡傾向得分 (Imai & Ratkovic, 2014) 將平均平衡直接納入傾向得分的邏輯回歸模型的估計中。還有其他方法可以繞過傾向得分模型並直接估計平衡協變量的權重,包括熵平衡(Hainmueller,2012)和穩定平衡權重(Zubizarreta,2015),儘管已經發現這些方法隱含地適合傾向評分模型。這些方法的一個問題是,人們必須對結果模型的形式有一個很好的了解。也就是說,使用其中一些方法,可以在協變量分佈的許多時刻(即均值、方差、偏斜等)及其相互作用上實現平衡,以便無論結果模型是什麼,都能實現足夠的平衡。儘管已經發現這些方法隱含地適合傾向評分模型。這些方法的一個問題是,人們必須對結果模型的形式有一個很好的了解。也就是說,使用其中一些方法,可以在協變量分佈的許多時刻(即均值、方差、偏斜等)及其相互作用上實現平衡,以便無論結果模型是什麼,都能實現足夠的平衡。儘管已經發現這些方法隱含地適合傾向評分模型。這些方法的一個問題是,人們必須對結果模型的形式有一個很好的了解。也就是說,使用其中一些方法,可以在協變量分佈的許多時刻(即均值、方差、偏斜等)及其相互作用上實現平衡,以便無論結果模型是什麼,都能實現足夠的平衡。
無論您選擇哪種方法,您都應該評估協變量的平衡。理想情況下,您希望通過確保在盡可能多的協變量及其轉換上保持平衡,同時保持高效的樣本量來管理偏差-方差權衡。如果不依賴深入的實質性知識或對結果進行建模,就無法知道最佳權衡是什麼。事實上,在許多情況下,我建議對結果進行建模,而不是單獨使用傾向得分。事實證明,將 BART 用於帶有協變量中包含的 BART 估計傾向得分的結果模型非常有效(Dorie 等人,2019 年),並且易於在bartCause R 包中實施。
Dorie, V.、Hill, J.、Shalit, U.、Scott, M. 和 Cervone, D. (2019)。因果推理的自動化與自己動手的方法:從數據分析競賽中吸取的教訓。統計科學,34(1),43-68。https://doi.org/10.1214/18-STS667
海恩穆勒,J. (2012)。因果效應的熵平衡:在觀察性研究中產生平衡樣本的多元重加權方法。政治分析,20(1),25-46。https://doi.org/10.1093/pan/mpr025
希爾,JL(2011)。用於因果推理的貝葉斯非參數建模。計算和圖形統計雜誌,20(1),217–240。https://doi.org/10.1198/jcgs.2010.08162
Hill, J.、Weiss, C. 和 Zhai, F. (2011)。高維環境中傾向評分策略的挑戰和潛在的替代方案。多元行為研究,46(3),477-513。https://doi.org/10.1080/00273171.2011.570161
Ho, DE, Imai, K., King, G. 和 Stuart, EA (2007)。匹配作為非參數預處理以減少參數因果推理中的模型依賴性。政治分析,15(3),199-236。https://doi.org/10.1093/pan/mpl013
金,K. il。(2019)。當真實傾向是參數時平均治療效果估計的效率。計量經濟學, 7(2), 25. https://doi.org/10.3390/econometrics7020025
McCaffrey, DF, Ridgeway, G., & Morral, AR (2004)。使用增強回歸評估觀察性研究中因果效應的傾向得分估計。心理學方法,9(4),403-425。https://doi.org/10.1037/1082-989X.9.4.403
Pirracchio, R.、Petersen, ML 和 van der Laan, M. (2015)。使用超級學習器提高傾向得分估計器對模型錯誤指定的魯棒性。美國流行病學雜誌,181(2),108-119。https://doi.org/10.1093/aje/kwu253
羅森鮑姆公關和魯賓 DB (1983)。傾向評分在因果效應的觀察性研究中的核心作用。生物計量學,70(1),41-55。https://doi.org/10.1093/biomet/70.1.41
小蘇比薩雷塔 (2015)。平衡估計的協變量與不完整結果數據的穩定權重。美國統計協會雜誌,110(511),910–922。https://doi.org/10.1080/01621459.2015.1023805