Causality

Judea Pearl 的《為什麼之書》:他為什麼抨擊統計數據?

  • November 14, 2018

我正在閱讀Judea Pearl*的 The Book of Why*,它正在深入我的皮膚1。具體來說,在我看來,他無條件地抨擊“經典”統計學,提出了一個稻草人的論點,即統計學永遠無法研究因果關係,它永遠不會對因果關係感興趣,並且統計學“成為一個模型-盲目的數據減少企業”。統計在他的書中變成了一個醜陋的詞。

例如:

統計學家對於應該控制和不應該控制哪些變量感到非常困惑,因此默認做法是控制所有可以測量的變量。[…] 這是一個方便、簡單的過程,但它既浪費又充滿錯誤。因果革命的一個關鍵成就是結束了這種混亂。

同時,統計學家大大低估了控制,因為他們根本不願意談論因果關係 […]

然而,因果模型一直在統計中,就像永遠一樣。我的意思是,回歸模型本質上可以用作因果模型,因為我們基本上假設一個變量是原因,另一個是結果(因此相關性不同於回歸建模的方法)並測試這種因果關係是否解釋了觀察到的模式.

另一個引用:

難怪統計學家特別發現這個難題[蒙蒂霍爾問題]難以理解。正如 RA Fisher (1922) 所說,他們習慣於“減少數據”而忽略數據生成過程。

這讓我想起了Andrew Gelman 寫給關於貝葉斯和常客的著名漫畫 xkcd的回复:“不過,我認為整個漫畫是不公平的,因為它將明智的貝葉斯主義者與盲目聽從淺薄教科書建議的常客統計學家進行比較。”

據我所知,在 Judea Pearls 書中存在的 s-word 的大量歪曲讓我想知道因果推理(迄今為止我認為這是一種組織和檢驗科學假設的有用且有趣的方式2)是否值得懷疑。

**問題:**您認為 Judea Pearl 是否歪曲了統計數據,如果是,為什麼?只是為了讓因果推理聽起來比實際更大?你認為因果推理是一場大 R 的革命,它真的改變了我們所有的想法嗎?

編輯:

上面的問題是我的主要問題,但既然它們是固執己見的,請回答這些具體問題(1)“因果革命”的含義是什麼?(2)它與“正統”統計有何不同?

  1. 也因為他是謙虛的人。

  2. 我的意思是科學意義上的,而不是統計意義上的。

編輯:Andrew Gelman 在 Judea Pearls 書上寫了這篇博文,我認為他在解釋我對這本書的問題方面做得比我做得更好。這裡引用兩句:

在本書的第 66 頁,Pearl 和 Mackenzie 寫道,統計數據“成為了一個模型盲數據縮減企業”。嘿!你他媽在說什麼??我是一名統計學家,從事統計工作 30 年,工作領域從政治到毒理學。“模型盲數據縮減”?那隻是胡說八道。我們一直在使用模型。

還有一個:

看。我知道多元主義者的困境。一方面,珀爾相信他的方法比以前的所有方法都要好。美好的。對他和其他許多人來說,它們是研究因果推理的最佳工具。同時,作為一個多元化的人,或者科學史的學生,我們意識到烤蛋糕有很多方法。尊重你並不真正為你工作的方法是具有挑戰性的,在某些時候,唯一的方法就是退後一步,意識到真正的人使用這些方法來解決實際問題。例如,我認為使用 p 值做出決策是一個糟糕且邏輯上不連貫的想法,導致了許多科學災難;同時,許多科學家確實設法使用 p 值作為學習工具。我承認這一點。相似地,我建議 Pearl 認識到統計工具、分層回歸建模、交互、後分層、機器學習等可以解決因果推理中的實際問題。我們的方法,就像珀爾的方法一樣,也可能會搞砸——GIGO!——也許珀爾是對的,我們最好改用他的方法。但我認為當他對我們所做的事情發表不准確的陳述時,這無濟於事。

我完全同意珀爾的語氣傲慢,他對“統計學家”的描述過於簡單化和單一化。另外,我覺得他的文字不是特別清楚。

不過,我覺得他說的有道理。

因果推理不是我的正式培訓 (MSc) 的一部分:我最接近該主題的是實驗設計的選修課,即任何因果關係主張都需要我對環境進行物理控制。珀爾的書因果關係是我第一次接觸到對這個想法的反駁。顯然我不能代表所有的統計學家和課程,但從我自己的角度來看,我贊同珀爾的觀察,即因果推理不是統計學的優先事項。

確實,統計學家有時會控制比嚴格必要的變量更多的變量,但這很少會導致錯誤(至少在我的經驗中)。

這也是我在 2010 年獲得統計學碩士學位後的一個信念。

然而,這是非常不正確的。當您控制一個常見的效果(書中稱為“對撞機”)時,您可以引入選擇偏差。這種認識讓我非常吃驚,並且真正讓我相信將我的因果假設表示為圖表的有用性。

編輯:我被要求詳細說明選擇偏差。這個話題非常微妙,我強烈建議仔細閱讀 edX MOOC on Causal Diagrams,這是一個非常好的圖表介紹,其中有一章專門討論選擇偏差。

舉一個玩具例子,套用書中引用的這篇論文:考慮變量 A=吸引力,B=美,C=能力。假設 B 和 C 在一般人群中是因果關係不相關的(即美不導致能力,能力不會導緻美,美和能力不具有共同的原因)。還假設 B 或 C 中的任何一個都足以吸引人,即 A 是對撞機。以 A 為條件會在 B 和 C 之間產生虛假關聯。

一個更嚴重的例子是“出生體重悖論”,如果嬰兒體重不足(U),母親在懷孕期間吸煙(S)似乎會降低嬰兒的死亡率(M)。提出的解釋是出生缺陷(D)也會導致低出生體重,並且也會導致死亡率。對應的因果圖是{ S -> U, D -> U, U -> M, S -> M, D -> M },其中U是對撞機;以它為條件會引入虛假關聯。這背後的直覺是,如果母親是吸煙者,那麼低出生體重不太可能是由於缺陷造成的。

引用自:https://stats.stackexchange.com/questions/376920

comments powered by Disqus

相關問答