傾向得分匹配 - 有什麼問題？

August 1, 2020

在估計治療效果時，一種常用的方法是匹配。當然有幾種用於匹配的技術，但更流行的技術之一是傾向得分匹配。

然而，我有時會偶然發現有人說使用傾向得分進行匹配是有爭議的，並且批評者表示其他程序可能更可取。所以我只是想知道是否有人熟悉這種批評，也許可以解釋它或提供參考。

簡而言之，我要問的問題是：為什麼使用傾向得分進行匹配會有問題？

確實，不僅有其他方法來執行匹配，而且還有僅使用治療和潛在混雜因素（例如，加權，有或沒有傾向得分）來調整混雜因素的方法。在這裡，我將僅提及傾向得分 (PS) 匹配的記錄問題。一般來說，匹配可能是一個有問題的方法，因為它會丟棄單位，可以改變目標估計，並且不平滑，使得推理具有挑戰性。使用傾向得分進行匹配會增加額外的問題。

對傾向得分匹配最著名的批評來自 King 和 Nielsen（2019 年）。他們有三個主要論點：1）傾向得分匹配試圖模仿隨機實驗而不是塊隨機實驗，後者產生更好的精度和控制混雜，2）傾向得分匹配導致“傾向得分悖論”，其中進一步修剪單元會增加一個點後的不平衡（某些其他匹配方法不共享），並且 3）使用傾向得分匹配後，效果估計對模型規範比其他匹配方法更敏感。我將簡要討論這些論點。

論點 (1) 是不可否認的，但可以通過首先對某些變量或它們的粗化版本進行精確匹配並在變量的層內進行 PS 匹配或使用 PS 來創建卡尺並使用不同的形式來改進 PS 匹配匹配（例如，馬氏距離匹配 [MDM]）到實際配對單元。儘管這些應該是標準方法，但研究人員通常只應用 PS 匹配而沒有這些其他有益步驟。這增加了對傾向得分模型的正確規範以控制混雜的依賴，因為平衡僅在平均上實現，而不是完全或必然在變量的各種組合中實現。

論點（2）只是有點站得住腳。確實，當卡尺連續變窄時會出現 PS 悖論，不包括更多的單位，但研究人員可以很容易地評估他們的數據是否正在發生這種情況並進行相應的調整。如果在收緊卡鉗後不平衡增加，則可以再次放鬆卡鉗。此外，Ripollone 等人。(2018) 發現，雖然 PS 悖論確實發生，但並不總是出現在研究人員最常使用的通常推薦的卡尺寬度中，這表明 PS 悖論對於 PS 匹配的實際使用並不像否則會出現悖論。

論點（3）也只是有點站得住腳。King 和 Nielsen 證明，如果在 PS 匹配之後，您要使用許多不同的模型來估計治療效果，那麼可能的效果估計範圍將比使用不同形式的匹配（特別是 MDM ）。這意味著 PS 匹配不能防止模型依賴，這通常被吹捧為它的主要好處。效果估計仍然取決於使用的結果模型。這個論點的問題在於，研究人員通常不會在匹配後嘗試數百種不同的結果模型。最常見的兩種是無模型（即 t 檢驗）或僅涉及匹配中使用的協變量的主效應的模型。任何其他模型都會被視為可疑，

我試圖通過重新創建他們的數據場景來解決與同事的爭論來複製 King 和 Nielsen 的發現（與上述各點無關；這是關於所包含的協變量是混雜因素還是中介因素是否重要）。您可以在此處看到復制嘗試。使用相同的數據生成過程，我能夠複製他們的一些發現，但不是全部。（在演示中，您可以忽略右側的圖表。）

其他對 PS 匹配的批評更多是關於它們的統計性能。Abadie 和 Imbens (2016) 證明 PS 匹配不是很精確。De los Angeles Resa 和 Zubizarreta (2016) 在模擬中發現，與不涉及傾向得分的基數匹配相比，PS 匹配的表現可能大大落後。這是因為 PS 匹配依賴於 PS 的理論屬性來平衡協變量，而基數匹配使用約束來要求平衡，從而確保樣本中滿足平衡。在所考慮的幾乎所有場景中，PS 匹配的效果都比基數匹配差。也就是說，與許多模擬研究一樣，如果 PS 匹配做得更好，該論文可能不會發表，因此這裡可能存在選擇效應。儘管如此，還是很難否認 PS 匹配是次優的。

你該怎麼辦？這取決於。匹配通常涉及平衡性、普遍性和样本量之間的權衡，這對應於內部有效性、外部有效性和精確度。PS 匹配沒有優化它們，但可以修改它以犧牲一些來提升另一個（例如，使用卡尺會減少樣本量並阻礙普遍性 [請參閱我的帖子在這裡有關詳細信息]，但通常會改善平衡）。如果泛化性對您來說不那麼重要，如果您要使用卡尺，這就是隱含的情況，那麼基數匹配是保持平衡和精確度的好方法。更好的是重疊加權（Li et al., 2018），它保證了精確的平均平衡和最精確的 PS 加權估計，但使用加權而不是匹配，因此更依賴於正確的模型規範。但是，在許多情況下，PS 匹配效果很好，您可以在提交之前評估它是否在您的數據集中運行良好。如果它沒有讓您保持良好的平衡（廣泛測量）或需要太緊的卡尺才能做到這一點，您可能會考慮另一種方法。

Abadie, A. 和 Imbens, GW (2016)。估計傾向得分的匹配。計量經濟學，84（2），781-807。https://doi.org/10.3982/ECTA11293

洛杉磯 Resa, M., & Zubizarreta, JR (2016)。評估子集匹配方法和協變量平衡的形式。醫學統計，35（27），4961-4979。https://doi.org/10.1002/sim.7036

King, G. 和 Nielsen, R. (2019)。為什麼不應使用傾向得分進行匹配。政治分析，1-20。https://doi.org/10.1017/pan.2019.11

Li, F.、Morgan, KL 和 Zaslavsky, AM (2018)。通過傾向得分加權平衡協變量。美國統計協會雜誌，113（521），390–400。https://doi.org/10.1080/01621459.2016.1260466

Ripollone, JE, Huybrechts, KF, Rothman, KJ, Ferguson, RE 和 Franklin, JM (2018)。傾向評分匹配悖論在藥物流行病學中的意義。美國流行病學雜誌，187（9），1951-1961。https://doi.org/10.1093/aje/kwy078

引用自：https://stats.stackexchange.com/questions/481110

comments powered by Disqus

傾向得分匹配 - 有什麼問題？

相關問答

為什麼我們要匹配因果推理與回歸混雜因素？

傾向得分匹配的用例是什麼？

為什麼傾向得分匹配比匹配更好？

強烈的可忽略性：對結果和治療之間關係的混淆

我應該使用機器學習模型來計算傾向得分嗎？

評估治療的暫時效果