Causality

因果階梯中第二級和第三級之間的差異

  • December 1, 2018

在 Judea Pearl 的“為什麼之書”中,他談到了他所謂的因果階梯,它本質上是一個由不同層次的因果推理組成的層次結構。最低的關注於觀察數據中的關聯模式(例如,相關性、條件概率等),下一個關注於乾預(如果我們故意以某種預先指定的方式改變數據生成過程會發生什麼?),第三個是反事實(如果某件事發生或沒有發生,在另一個可能的世界中會發生什麼)?

我不明白的是二階和三階有何不同。如果我們問一個反事實的問題,我們不只是問一個關於乾預的問題,以否定 觀察到的世界的某些方面嗎?

現實世界與介入層面的利益行動之間不存在矛盾。例如,直到今天吸煙和從明天開始被迫戒菸並不矛盾,即使你可以說一個“否定”另一個。但是現在想像一下下面的場景。你知道喬,一個終生吸煙的肺癌患者,你想知道:如果喬三十年不吸煙,他今天會健康嗎?在這種情況下,我們在同一時間與同一個人打交道,想像一個行動和結果與已知事實直接矛盾的場景。

因此,干預和反事實的主要區別在於,在干預中,您要問的是,如果您執行某項行動,平均會發生什麼,而在反事實中,您要問的是,如果您在特定情況下採取了不同的行動,會發生什麼,*假設你有關於實際發生的事情的信息。*請注意,由於您已經知道現實世界中發生了什麼,因此您需要根據觀察到的證據更新有關過去的信息。

這兩種類型的查詢在數學上是不同的,因為它們需要回答不同級別的信息(反事實需要更多信息來回答),甚至需要更複雜的語言來表達!

有了回答梯級 3 問題所需的信息,您就可以回答梯級 2 問題,但反之則不行。更準確地說,你不能僅僅用乾預信息來回答反事實問題。CV 中已經給出了乾預和反事實衝突發生的示例,請參閱這篇文章這篇文章。但是,為了完整起見,我也將在此處包含一個示例。

下面的例子可以在因果關係第 1.4.4 節中找到。

假設您進行了一項隨機實驗,其中患者被隨機分配(50% / 50%)接受治療( $ x =1 $ ) 和控制條件 ( $ x=0 $ ),治療組和對照組均有 50% 的患者康復( $ y=0 $ ) 和 50% 的人死亡 ( $ y=1 $ )。那是 $ P(y|x) = 0.5~~~\forall x,y $ .

實驗結果告訴你,干預的平均因果效應為零。這是一個梯級 2 的問題, $ P(Y = 1|do(X = 1)) - P(Y=1|do(X =0) = 0 $ .

但是現在讓我們問一個問題:那些在治療中死亡的患者如果不接受治療,有多少百分比可以康復? 在數學上,你想計算 $ P(Y_{0} = 0|X =1, Y = 1) $ .

僅憑您擁有的介入性數據無法回答這個問題。證明很簡單:我可以創建兩個不同的因果模型,它們具有相同的干預分佈,但具有不同的反事實分佈。兩者提供如下:

在此處輸入圖像描述

這裡, $ U $ 相當於解釋患者對治療的反應的未觀察到的因素。例如,您可以考慮解釋治療異質性的因素。注意邊際分佈 $ P(y, x) $ 兩種模型都同意。

請注意,在第一個模型中,沒有人受到治療的影響,因此那些因治療而死亡的患者如果不接受治療本可以康復的百分比為零。

然而,在第二個模型中,每個患者都受到治療的影響,並且我們有兩個群體的混合,其中平均因果效應結果為零。在此示例中,反事實數量現在變為 100% —— 在模型 2 中,所有在治療中死亡的患者如果不接受治療,將會康復。

因此,第 2 級和第 3 級有明顯的區別。如示例所示,您不能僅用有關干預的信息和假設來回答反事實問題。計算反事實的三個步驟可以清楚地說明這一點:

  1. **步驟 1(外推):**更新未觀察到的因素的概率 $ P(u) $ 根據觀察到的證據 $ P(u|e) $
  2. **步驟 2(動作):**執行模型中的動作(例如 $ do(x)) $ .
  3. **第三步(預測):**預測 $ Y $ 在修改後的模型中。

如果沒有一些關於因果模型的功能信息,或者沒有一些關於潛在變量的信息,這將不可能計算出來。

引用自:https://stats.stackexchange.com/questions/379799

comments powered by Disqus

相關問答