什麼時候不適合控制變量?
我至少能想到一個天真的例子。假設我想研究 X 和 Z 之間的關係。我也懷疑 Y 影響 Z,所以我控制 Y。然而,我不知道的是,X 導致 Y,Y 導致 Z。因此,通過控制對於 Y,我“掩蓋”了 X 和 Z 之間的關係,因為在給定 Y 的情況下 X 獨立於 Z。
現在,在前面的例子中,我應該研究的關係可能是 X 和 Y 以及 Y 和 Z 之間的關係。但是,如果我先驗地知道這些事情,我就不會在第一名。我現在所做的研究表明 X 和 Z 之間沒有關係,但事實並非如此…… X 和 Z 是相關的。
這在以下依賴圖中進行了說明。在正確的情況下,Z 取決於 X 和 Y,並且 X 和 Y 是獨立的。我們正確地控制 Y 來確定 X 和 Z 之間的關係。在左邊的場景中,Z 依賴於 Y,而 Y 依賴於 X。X 和 Z 在給定 Y 的情況下是獨立的,因此 X 和 Z 之間的關係通過控制Y。
我的問題基本上是“什麼時候控制變量 Y 合適,什麼時候不合適?”…… 完全調查 X 和 Y 之間的關係可能很困難或不可能,但是,例如,在給定級別控制 Y 是一個選項。在進行研究之前,我們如何決定,控製過多或過少的常見陷阱是什麼?
引文讚賞。
在給定第三變量的某些預測變量的情況下調節(即調整)某些結果的概率被廣泛實踐,但正如您正確指出的那樣,實際上可能會在結果估計中引入偏差,作為**因果效應的表示。這甚至可能發生在潛在因果混雜因素的“經典”定義中,因為混雜因素本身和感興趣的預測變量都可能在上游都有進一步的因果混雜因素。例如,在下面的 DAG 中,是因果關係的經典混雜因素在, 因為 (1) 它導致並因此與, 和 (2) 與因為它與這與. 然而,無論是調節還是分層在(“對撞機”)將產生對影響的有偏因果估計在因為與由未測量的變量, 和與由未測量的變量.
了解哪些變量需要調整或分層分析以提供無偏的因果估計,需要使用因果效應可識別性標準仔細考慮可能的 DAG(Pearl、Robins 和其他人描述的沒有不被後門路徑阻止的常見原因) . 沒有捷徑。學習常見的混淆模式。學習常見的選擇偏差模式。實踐。
參考
Greenland, S.、Pearl, J. 和 Robins, JM (1999)。流行病學研究的因果圖。流行病學,10(1):37-48。
Hernán, MA 和 Robins, JM (2018)。因果推理。Chapman & Hall/CRC, 佛羅里達州博卡拉頓
Maldonado, G. 和格陵蘭, S. (2002)。估計因果關係。國際流行病學雜誌,31(2):422–438。
珍珠,J. (2000)。因果關係:模型、推理和推理。劍橋大學出版社。