Correlation

無因果關係

  • January 3, 2022

我知道著名的表述“相關並不意味著因果”。在 DAG 中,這種情況可能看起來像

$$ X \leftarrow U \rightarrow Y $$

這裡雖然 $ X $ 和 $ Y $ 沒有因果關係,混雜因素的存在 $ U $ 引起它們之間的相關性。

我也知道兩個因果相關的變量可能是不相關的,因為相關性是關聯的線性度量。例如,之間的相關性 $ X $ 和 $ Y $ 和 $ Y = X^2 $ 是 $ 0 $

**在反事實形式因果推理的背景下,我的問題是:**如果之間沒有暢通的路徑 $ X $ 和 $ Y $ , 會期望兩者之間存在非零相關性 $ X $ 和 $ Y $ 在無限樣本限制中?我知道在有限樣本中,虛假相關性可能只是由於偶然性而出現,但漸近地,如果兩個變量之間沒有開放的因果路徑,我們是否有可能期望非零相關性,或者實際上,任何測量關聯是積極的,他們之間?

**簡而言之:兩個d分離變量能否具有預期的非零相關性?**答案應使用反事實因果推理形式。

不。

需要注意的是,嵌入在 DAG 中的直接因果關係是信念(或至少是信念的前提),因此一個人執行的反事實正式因果分析是以DAG 為真為前提的,那麼您的問題就涉及到這種效用推理,因為在這個世界觀中,相關性只能在給定從一個變量到另一個變量的路徑的d分離的情況下進行因果解釋。如果一組變量(例如, $ L $ ) 足以將路徑從 $ A $ 到 $ Y $ (說, $ Y $ 作為推定的效果,和 $ A $ 作為推定的原因 $ Y $ ), 然後:

  • 一個人推斷出 $ \text{cor}(Y,A|L) \ne 0 $ 作為證據 $ A $ 原因 $ Y $ (這是非標準符號……我熟悉的人通常會寫類似 $ P(Y=1|A=0,L) - P(Y=1|A=1,L) \ne 0 $ 對於水平 $ L $ 而不是專門談論相關性……可能是因為DAG 和從中得出的推論是非參數的,但 Pearson 的相關性是線性的,而 Spearman 的相關性是單調的),並且
  • 一推斷 $ \text{cor}(Y,A|L) = 0 $ 作為證據 $ A $ 不會導致 $ Y $ .

這就是這種因果分析的重點。(這也是為什麼它通過將分析的批評專門用於構建 $ L $ 和 DAG。)

除了,有點(但仍然不是)。

回到關於體現信仰的 DAG 的警告。對於任何給定的分析,這些信念可能或多或少是有效的。事實上,您提供的 DAG 說明了一個很好的理由:我們可能想像的大多數變量(無論是否適合 $ L $ , $ Y $ , 或者 $ A $ 在我上面的命名法中)本身是由其他一些變量引起的……可能是一組未測量的先驗原因中的一個變量 $ U $ . 這就是為什麼來自觀察研究的因果推論的有效性總是受到無法測量的後門混雜的威脅(即這種質量是我們所說的“觀察研究”的一部分),以及為什麼隨機對照試驗具有特殊的價值(甚至儘管來自隨機對照試驗的因果推論與觀察性研究設計一樣容易受到選擇偏倚的威脅)。

在對 Mir Henglin 的問題的評論中的鏈接中提供了許多關於存在“因果關係”變量和過程之間相關性的好例子。我會爭辯說,而不是偽造我不合格的“不”。在我的回答開始時,這些僅表明 DAG 實際上並未擴展到涵蓋所有起作用的因果變量:因果信念集是不完整的(例如,請參閱Pearl 關於將隱藏變量合併到 DAG 中的觀點)。@whuber 還提出了以下重要評論:

關鍵是,實際上任何兩個過程,即使它們完全相互獨立(因果關係和概率),隨著時間的推移經歷類似的確定性變化,都將具有非零相關性。如果這就是你所說的“混淆”的意思,那就這樣吧——但似乎沒有涉及到一個新問題。

在反事實的正式因果推理中,對於時間作為因果變量的適當性存在不同的解釋。我要指出:

  • DAG 形式主義僅對變量的定性時間順序是明確的,但
  • DAG對時間的定量長度保持沉默。

因此,有理由認為時間長度可以作為反事實形式因果推理中的混淆變量。

結果是重複我的開場白:以 DAG 為條件為 true,那麼如果從 $ A $ 到 $ Y $ 是d分離的,那麼 $ A $ 不能導致 $ Y $ 如果 $ \text{cor}(Y,A|L) = 0 $ .

引用自:https://stats.stackexchange.com/questions/559085

comments powered by Disqus