從統計學的角度來看，可以通過觀察性研究使用傾向得分來推斷因果關係嗎？

October 7, 2010

**問題：**從統計學家（或從業者）的角度來看，是否可以通過觀察性研究（而不是實驗）使用傾向得分來推斷因果關係？

請不要開始一場激烈的戰爭或狂熱的辯論。

**背景：**在我們的統計博士項目中，我們只通過工作組和一些主題會議觸及了因果推理。但是，其他部門（例如 HDFS、社會學）也有一些非常傑出的研究人員正在積極使用它們。

我已經目睹了關於這個問題的一些相當激烈的辯論。我不打算在這裡開始。也就是說，您遇到了哪些參考資料？你有什麼觀點？例如，我聽到的一個反對將傾向得分作為因果推斷技術的論點是，由於遺漏的變量偏差，人們永遠無法推斷因果關係——如果你遺漏了一些重要的東西，你就會破壞因果鏈。這是一個無法解決的問題嗎？

**免責聲明：**這個問題可能沒有正確的答案——點擊 cw 非常酷，但我個人對回复非常感興趣，並且會很高興有一些好的參考資料，其中包括真實世界的例子。

在一篇旨在促進在流行病學中使用 PS 的文章的開頭，Oakes 和 Church (1) 引用了 Hernán 和 Robins 關於流行病學中混雜效應的主張 (2)：

你能保證你的觀察性研究的結果不受不可測量的混雜因素的影響嗎？流行病學家可以提供的唯一答案是“不”。

這不僅是說我們不能確保觀察性研究的結果是公正的或無用的（因為正如@propofol 所說，他們的結果可能對設計 RCT 有用），而且 PS 肯定不會為此提供完整的解決方案問題，或者至少不一定比其他匹配或多變量方法產生更好的結果（參見例如（10））。

傾向得分 (PS) 在結構上是概率而非因果指標。進入傾向評分函數的協變量的選擇是確保其可靠性的關鍵因素，正如已經說過的，它們的弱點主要來自未控制未觀察到的混雜因素（這很可能在回顧性或病例對照研究中） . 必須考慮其他因素：(a) 模型錯誤指定會影響直接效應估計（但實際上並不比 OLS 的情況更嚴重），(b) 協變量水平可能存在缺失數據，(c) PS 確實不能克服已知會影響因果解釋的協同效應 (8,9)。

至於參考資料，我發現 Roger Newson 的幻燈片——因果關係、混雜因素和傾向得分——在使用傾向得分的利弊方面相對平衡，並附有真實研究的插圖。兩年前在醫學統計學中也有幾篇很好的論文討論了在觀察性研究或環境流行病學中使用傾向評分，我在最後附上了其中的幾個（3-6）。但我喜歡 Pearl 的評論 (7)，因為它為因果關係問題提供了更大的視角（PS 在第 117 和 130 頁進行了討論）。顯然，通過查看應用研究，您會發現更多插圖。我想補充一下來自 Andrew Gelman 網站 (11,12) 的 William R Shadish 最近的兩篇文章。討論了傾向得分的使用，但這兩篇論文更多地關注觀察性研究中的因果推理（以及它如何與隨機設置進行比較）。

參考

Oakes, JM 和 Church, TR (2007)。特邀評論：推進流行病學傾向評分方法。美國流行病學雜誌，165（10），1119-1121。

Hernan MA 和 Robins JM (2006)。因果推理工具：流行病學家的夢想？ 流行病學，17，360-72。

魯賓，D. (2007)。因果效應的觀察性研究的設計與分析：與隨機試驗的設計相似。醫學統計，26、20-36。

Shrier, I. (2008)。給編輯的信。醫學統計，27, 2740–2741。

珍珠，J. (2009)。對傾向評分方法的備註。醫學統計，28, 1415–1424。

斯圖爾特，EA (2008)。為使用傾向評分制定實用建議：Peter Austin 對“1996 年至 2003 年間醫學文獻中傾向評分匹配的批判性評估”的討論。醫學統計，27, 2062–2065。

珍珠，J. (2009)。統計中的因果推理：概述。統計調查，3，96-146。

奧克斯，JM 和約翰遜，PJ（2006 年）。社會流行病學的傾向得分匹配。在*《社會流行病學方法》中*，JM Oakes 和 S. Kaufman（編輯），第 364-386 頁。喬斯-巴斯。

霍夫勒，米（2005 年）。基於反事實的因果推理。BMC 醫學研究方法論，5, 28。

Winkelmayer, WC 和 Kurth, T. (2004)。傾向得分：幫助還是炒作？ 腎病透析移植，19（7），1671-1673。

Shadish，WR，Clark，MH 和 Steiner，PM（2008 年）。非隨機實驗能得出準確的答案嗎？比較隨機和非隨機分配的隨機實驗。JASA，103（484），1334-1356。

Cook, TD, Shadish, WR 和 Wong, VC (2008)。實驗和觀察性研究產生可比較因果估計的三個條件：研究內比較的新發現。政策分析與管理雜誌，27（4），724–750。

引用自：https://stats.stackexchange.com/questions/3400

comments powered by Disqus

從統計學的角度來看，可以通過觀察性研究使用傾向得分來推斷因果關係嗎？

相關問答

傾向得分匹配的用例是什麼？

為什麼傾向得分匹配比匹配更好？

傾向得分匹配 - 有什麼問題？

我應該使用機器學習模型來計算傾向得分嗎？

R中傾向得分匹配後的不同結果

傾向評分加權平均治療效果的置信區間？