因果關係如何在數學上定義?
兩個隨機變量之間因果關係的數學定義是什麼?
給定兩個隨機變量聯合分佈的樣本 $ X $ 和 $ Y $ , 我們什麼時候說 $ X $ 原因 $ Y $ ?
對於上下文,我正在閱讀這篇關於因果發現的論文。
兩個隨機變量之間因果關係的數學定義是什麼?
在數學上,因果模型由變量之間的函數關係組成。例如,考慮下面的結構方程組:
$$ x = f_x(\epsilon_{x})\ y = f_y(x, \epsilon_{y}) $$
這意味著 $ x $ 在功能上確定的價值 $ y $ (如果你干預 $ x $ 這改變了 $ y $ ) 但不是相反。在圖形上,這通常表示為 $ x \rightarrow y $ , 意思就是 $ x $ 輸入 y 的結構方程。作為附錄,您還可以根據反事實變量的聯合分佈來表達因果模型,這在數學上等同於函數模型。
給定一個來自兩個隨機變量 X 和 Y 的聯合分佈的樣本,我們什麼時候會說 X 導致 Y?
有時(或大多數時候)您不了解結構方程的形狀 $ f_{x} $ , $ f_y $ , 甚至是否 $ x\rightarrow y $ 或者 $ y \rightarrow x $ . 您擁有的唯一信息是聯合概率分佈 $ p(y,x) $ (或來自此分佈的樣本)。
這就引出了你的問題:我什麼時候可以僅從數據中恢復因果關係的方向?或者,更準確地說,我什麼時候才能恢復 $ x $ 進入結構方程 $ y $ 反之亦然,僅從數據?
當然,如果沒有關於因果模型的*任何根本上不可檢驗的假設,*這是不可能的。問題是幾個不同的因果模型可能需要觀察變量的相同聯合概率分佈。最常見的例子是具有高斯噪聲的因果線性系統。
但在一些因果假設下,這可能是可能的——這就是因果發現文獻所研究的。如果您之前沒有接觸過這個主題,您可能想從Peters、Janzing 和 Scholkopf 的Elements of Causal Inference以及Judea Pearl的 Causality 第 2 章開始。我們在這裡有一個關於 CV 的主題,用於參考因果發現,但我們還沒有列出那麼多參考資料。
因此,您的問題不僅僅是一個答案,因為它取決於一個人所做的假設。您提到的論文引用了一些示例,例如假設具有非高斯噪聲的線性模型。這種情況被稱為LINGAN(線性非高斯無環模型的縮寫),下面是一個示例
R
:library(pcalg) set.seed(1234) n <- 500 eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n))) eps2 <- runif(n) - 0.5 x2 <- 3 + eps2 x1 <- 0.9*x2 + 7 + eps1 # runs lingam X <- cbind(x1, x2) res <- lingam(X) as(res, "amat") # Adjacency Matrix 'amat' (2 x 2) of type ‘pag’: # [,1] [,2] # [1,] . . # [2,] TRUE .
請注意,這裡我們有一個具有非高斯噪聲的線性因果模型,其中 $ x_2 $ 原因 $ x_1 $ 並且 lingam 正確地恢復了因果方向。但是,請注意,這在很大程度上取決於LINGAM 假設。
對於您引用的論文,他們做出了這個特定的假設(參見他們的“假設”):
如果 $ x\rightarrow y $ ,機制映射 X 到 Y 的最小描述長度與 X 的值無關,而機制映射 Y 到 X 的最小描述長度取決於 Y 的值。
請注意,這是一個假設。這就是我們所說的他們的“識別條件”。本質上,該假設對聯合分佈施加了限制 $ p(x,y) $ . 也就是說,假設說如果 $ x \rightarrow y $ 數據中存在某些限制,如果 $ y \rightarrow x $ 其他限製成立。這些類型的限制具有可測試的含義(對 $ p(y,x) $ ) 是允許人們從觀測數據中定向恢復的原因。
最後,因果發現的結果仍然非常有限,並且依賴於強假設,在將這些應用於現實世界時要小心。