Simpsons-Paradox

辛普森悖論與伯克森悖論

  • January 18, 2020

有人能解釋一下兩者有什麼區別嗎?在我看來,它們是相同的。在這兩個悖論中,您都從一個狹窄的分佈開始,當您轉向完整的分佈時,您會發現相關性開關。那麼實際上有什麼區別呢?

當前答案評論:

  • Mickybo Yakari指出伯克森悖論與數據的(潛在錯誤的)抽樣有關。雖然辛普森悖論與抽樣風險無關,但與數據分析有關(是否以某些變量為條件)。
  • 積累在選擇偏差(伯克森)和分類偏差(辛普森)之間做出了同樣的區分,並聲稱伯克森可以被視為辛普森的一個子集。
  • 諾亞引入了潛在“真理”的概念。在辛普森的理論中,對混雜變量的條件化(或分類)揭示了真相,不這樣做就是混雜;而在伯克森的對colider變量的調節(或採樣)中,隱藏了真相。

辛普森悖論和伯克森悖論都是統計現象,其中觀察到了驚人的差異,但它們出現的原因不同。讓我們用幾句話來描述它們並確定它們的不同之處。

辛普森悖論是一種統計現象,其中兩個變量之間的趨勢發生在幾個不同的數據組中,根據條件變量所取的值形成,但當這些組組合時消失或反轉。差異存在於基於分解的結論和基於聚合的結論之間,並且不是由數據的任何分區子集中缺少數據引起的,而是由分區子集的相對大小(比例計算問題)引起的。

伯克森悖論源於這樣一個事實,即樣本的收集方式使得總體中的某些個體(以條件變量為特徵)比其他個體更不可能被選中。

Pearl, J. (2013),線性模型:因果分析的有用“顯微鏡”,因果推理雜誌,1.1,155-170,

使用圖形模型的語言,作者解釋說:

選擇偏差是與對撞機節點上的條件相關的一般現象的症狀[…] 這種現象涉及在觀察到它們的共同影響時在兩個原因之間引起的虛假關聯,因為任何反駁一個原因的信息都應該使另一個原因更有可能。它被稱為伯克森悖論 (Berkson, 1946)、“解釋” (Kim and Pearl, 1983) 或簡稱為“對撞機偏差”。

這是有問題的,因為結果可能是,由於條件變量和必然的有偏抽樣,樣本準確地代表了人口的某個子集,而不是整個人口。

這是一篇附加論文,可進一步加深對這兩個悖論的理解:

Pearl, J. (2014),理解辛普森悖論,美國統計學家,1.68, 8-13。

作者指出,辛普森本人注意到,根據數據背後的故事,更明智的(辛普森的話)有時與分類分析兼容,有時與匯總分析兼容。他提供了辛普森的經典例子。

引用自:https://stats.stackexchange.com/questions/445341

comments powered by Disqus

相關問答