強烈的可忽略性:對結果和治療之間關係的混淆
在潛在結果和個體治療效果 (ITE) 估計的研究領域中,通常會提出一個稱為“強可忽略性”的常見假設。給定具有以下變量的圖形模型:治療 $ T={0,1} $ (例如是否給予藥物),協變量 $ X $ (例如患者病史)和結果 $ Y $ (例如患者的健康)。相應的可視化圖形模型如下所示:
$ Y \leftarrow X \rightarrow T \rightarrow Y $
(這裡的 Y 相同,見下圖)
然後,強可忽略性定義為:
$ (Y_0, Y_1) \perp!!!\perp T \mid X $
在哪裡 $ Y_0 = Y(T=0) $ 和 $ Y_1 = Y(T=1) $ .
我的問題是,如果做出這個假設,那麼這意味著結果與給予的治療無關 $ X $ . 但是結果怎麼可能獨立於治療呢?如果我們一開始就假設治療對結果沒有真正的影響,為什麼還要費心去解決 ITE 問題呢?
ITE估計的整個想法不是通過估計兩種潛在結果之間的差異來確定治療對結果Y的影響嗎 $ Y(T=0) $ 和 $ Y(T=1) $ ,其中之一是我們從觀察數據集中觀察到的事實觀察?
我在這裡缺少什麼,為什麼我的理解不正確?
我想這與事實有關,如果我們知道 $ X $ (即當給定 X 時),則治療不再存在不確定性 $ T $ 因為知道 $ X $ 使 $ T $ 確定性(從上面的圖形模型中可以看出?)
而且,我想我不明白以下四件事之間的區別:
$ Y \perp!!!\perp T \mid X $
$ (Y_0, Y_1) ⊥ T \mid X $
$ Y_0 \perp!!!\perp T \mid X $
$ Y_1 \perp!!!\perp T \mid X $
我會試著把它分解一下。我認為研究潛在結果時的大部分困惑(即 $ Y_0,Y_1 $ ) 是意識到 $ Y_0,Y_1 $ 不同於 $ Y $ 不引入協變量 $ X $ . 關鍵是要認識到每個人 $ i $ 有潛在的結果 $ (Y_{i1},Y_{i0}) $ , 但你只觀察 $ Y_{iT} $ 在數據中。
無知說
$$ (Y_0,Y_1) \perp !!! \perp T|X $$
這說有條件 $ X $ ,則潛在結果與治療無關 $ T $ . 這並不是說 $ Y $ 獨立於 $ T $ . 正如你所指出的,這沒有任何意義。其實是一種經典的重寫方式 $ Y $ 就像
$$ Y = Y_1T + Y_0(1-T) $$
這告訴我們,對於每個人,我們觀察到 $ Y_i $ 這是要么 $ Y_{i1} $ 或者 $ Y_{i0} $ 取決於治療的價值 $ T_i $ . 產生潛在結果的原因是我們想知道效果 $ Y_{i1} - Y_{i0} $ 但只為每個人觀察兩個對象之一。問題是:會有什麼 $ Y_{i0} $ 一直為個人 $ i $ 誰有 $ T_i=1 $ (反之亦然)?忽略條件 $ X $ 部分,可忽略性假設本質上是說治療 $ T $ 肯定會影響 $ Y $ 憑藉 $ Y $ 等於 $ Y_1 $ 或者 $ Y_0 $ , 但那 $ T $ 與價值觀無關 $ Y_0,Y_1 $ 他們自己。
為了激發這一點,考慮一個簡單的例子,我們只有兩種類型的人:弱者和強者。讓治療 $ T $ 正在接受藥物治療,並且 $ Y $ 是患者的健康(更高 $ Y $ 意味著更健康)。堅強的人遠比軟弱的人健康。現在假設接受藥物治療會使每個人的健康增加一定的量。
第一種情況:假設只有不健康的人才會尋求藥物治療。然後那些有 $ T=1 $ 將主要是弱者,因為他們是不健康的人,以及那些有 $ T=0 $ 將主要是強壯的人。但隨後可忽略性失敗了,因為 $ (Y_1,Y_0) $ 與治療狀態有關 $ T $ : 在這種情況下,兩者 $ Y_1 $ 和 $ Y_0 $ 會更低 $ T=1 $ 比 $ T=0 $ 自從 $ T=1 $ 到處都是弱者,我們說弱者總體上不太健康。
第二種情況:假設我們將藥物隨機分配到我們的強者和弱者池中。在這裡,可忽略性成立,因為 $ (Y_1,Y_0) $ 獨立於治療狀態 $ T $ :弱者和強者接受治療的可能性相同,因此 $ Y_1 $ 和 $ Y_0 $ 平均而言是相同的 $ T=0 $ 和 $ T=1 $ . 然而,由於 $ T $ 讓每個人都更健康,很明顯 $ Y $ 不獨立於 $ T $ ..在我的例子中它對健康有固定的影響!
換句話說,可忽略性允許 $ T $ 直接影響你是否收到 $ Y_1 $ 或者 $ Y_0 $ ,但治療狀態與這些值無關。在這種情況下,我們可以弄清楚什麼 $ Y_0 $ 本來是為了那些接受治療的人,看看那些沒有接受治療的人的效果!我們通過比較那些接受治療的人和那些沒有接受治療的人來獲得治療效果,但我們需要一種方法來確保接受治療的人和沒有接受治療的人沒有根本的不同,而這正是無知的原因條件假設。
我們可以用另外兩個例子來說明:
一個典型的例子是在隨機對照試驗 (RCT) 中,您將治療隨機分配給個體。那麼很明顯,接受治療的人可能會有不同的結果,因為治療會影響你的結果(除非治療真的對結果沒有影響),但接受治療的人是隨機選擇的,因此接受治療與潛在結果無關,所以你確實這樣做有那個 $ (Y_0,Y_1) \perp !!! \perp T $ . 可忽略性假設成立。
對於失敗的示例,請考慮治療 $ T $ 成為高中畢業與否的指標,並讓結果 $ Y $ 為 10 年的收入,並定義 $ (Y_0,Y_1) $ 和以前一樣。然後 $ (Y_0,Y_1) $ 不獨立於 $ T $ 因為大概對那些有 $ T=0 $ 從根本上不同於那些 $ T=1 $ . 也許讀完高中的人比沒有讀完高中的人更有毅力,或者來自富裕家庭,這反過來意味著,如果我們可以觀察一個高中畢業的人還沒有讀完的世界,他們的結果仍然會與觀察到的未完成高中的個人群體不同。因此,可忽略性假設可能不成立:治療與潛在結果相關,在這種情況下,我們可能期望 $ Y_0 | T_i = 1 > Y_0 | T_i = 0 $ .
空調 $ X $ 部分僅適用於可忽略性以某些控件為條件的情況。在您的示例中,可能只有在以患者病史為條件後,治療才獨立於這些潛在結果。對於可能發生這種情況的示例,假設患者病史較高的個體 $ X $ 病情更重,更有可能接受治療 $ T $ . 然後沒有 $ X $ ,我們遇到了與上述相同的問題:未實現的 $ Y_0 $ 對於那些接受治療的人可能低於實現的 $ Y_0 $ 對於那些沒有接受治療的人,因為前者更有可能是不健康的人,因此比較接受治療和未接受治療的人會產生問題,因為我們不是在比較同一個人。但是,如果我們控制患者病史,我們可以改為假設 $ X $ ,對個人的治療分配再次與他們的潛在結果無關,因此我們很高興再次進行。
編輯
最後一點,基於與 OP 的聊天,將潛在結果框架與 OP 帖子中的 DAG 聯繫起來可能會有所幫助(Noah 的回复涵蓋了類似的設置,更正式,因此絕對值得一試)。在這些類型的 DAG 中,我們完全模擬了變量之間的關係。忘記 $ X $ 對於它,假設我們只有那個 $ T \rightarrow Y $ . 這是什麼意思?好吧,這意味著 T 的唯一影響是通過 $ T = 1 $ 或者 $ T= 0 $ ,並且沒有通過其他渠道,所以我們立即有 T 影響 $ Y_1T+ Y_0(1-T) $ 只有通過價值 $ T $ . 你可能會想“如果 T 通過其他渠道影響 Y 會怎樣”,但要說 $ T \rightarrow Y $ ,我們說沒有其他渠道。
接下來,考慮您的情況 $ X \rightarrow T \rightarrow Y \leftarrow X $ . 在這裡,我們有 T 直接影響 Y,但 X 也直接影響 T 和 Y。為什麼可忽略性會失敗?因為 T 可以通過 X 的作用為 1,X 也會影響 Y,所以 $ T = 1 $ 可能會影響 $ Y_0 $ 和 $ Y_1 $ 對於組 $ T=1 $ ,所以 T 影響 $ Y_1T + Y_0(1-T) $ 兩者都通過 1. T 值的直接影響,但 2. T 現在也影響 $ Y_1 $ 和 $ Y_0 $ 通過這樣一個事實 $ X $ 影響 $ Y $ 和 $ T $ 同時。