我應該知道哪些因果關係理論?
作為應用統計學家/計量經濟學家,我應該知道哪些因果關係的理論方法?
我知道(一點點)
- Neyman-Rubin 因果模型(以及Roy、Haavelmo等)
- 珀爾關於因果關係的工作
- 格蘭傑因果關係(儘管較少以治療為導向)
我錯過或應該注意哪些概念?
相關:哪些理論是機器學習因果關係的基礎?
我已經閱讀了這些有趣的問題和答案(1、2、3),但我認為這是一個不同的問題。例如,我很驚訝地看到“統計學習要素”中沒有提到“因果關係” 。
嚴格來說,“格蘭傑因果關係”根本不是因果關係。這是關於預測能力/時間優先級的,您想檢查一個時間序列是否對預測另一個時間序列有用——它適用於諸如“通常 A 發生在 B 發生之前”或“知道 A 幫助我預測 B 會發生”之類的聲明,但不是相反”(即使在考慮了所有關於 $ B $ )。這個名字的選擇是非常不幸的,它是幾個誤解的原因。
雖然原因必須在時間上先於其結果幾乎沒有爭議,但要得出具有時間優先性的因果結論,您仍然需要聲明沒有混淆,以及其他虛假關聯的來源。
現在關於潛在結果(Neyman-Rubin)與因果圖/結構方程建模(Pearl),我會說這是一個錯誤的困境,你應該同時學習。
首先,重要的是要注意這些並不是關於因果關係的相反觀點。正如 Pearl 所說,關於(因果)推理任務有一個層次結構:
- 觀測預測
- 干預下的預測
- 反事實
對於第一個任務,您只需要知道觀察到的變量的聯合分佈。對於第二個任務,您需要了解聯合分佈和因果結構。對於反事實的最後一項任務,您將進一步需要有關結構方程模型的函數形式的一些信息。
因此,在談論反事實時,兩種觀點之間存在形式上的對等。不同之處在於,潛在結果將反事實陳述作為原語,而在 DAG 中,反事實似乎來自結構方程。但是,您可能會問,如果它們是“等價的”,為什麼還要學習兩者呢?因為在表達和派生事物的“容易程度”方面存在差異。
例如,嘗試僅使用潛在結果來表達M-Bias的概念——我從未見過好的結果。事實上,到目前為止,我的經驗是,從未研究過圖表的研究人員甚至都沒有意識到這一點。此外,用圖形語言對模型進行實質性假設將使計算更容易得出其經驗可測試的含義並回答可識別性問題。另一方面,有時人們會發現更容易首先直接考慮反事實本身,並將其與參數假設結合起來以回答非常具體的問題。
可以說的還有很多,但這裡的重點是你應該學習如何“說兩種語言”。如需參考,您可以在此處查看如何開始。