Mathematical-Statistics

辛普森悖論是否涵蓋了隱藏變量反轉的所有實例?

  • November 29, 2017

以下是關於辛普森悖論存在的許多可視化的問題,可能是關於術語的問題。

辛普森悖論是一個相當簡單的現象,可以描述並給出數值示例(發生這種情況的原因深刻而有趣的)。悖論是存在 2x2x2 列聯表(Agresti,分類數據分析),其中邊際關聯與每個條件關聯具有不同的方向。

也就是說,兩個亞群中的比率比較都可以朝一個方向進行,但組合總體中的比較則朝另一個方向進行。在符號中:

存在這樣

這在以下可視化中準確表示(來自Wikipedia):

向量中的辛普森悖論

A分數只是對應向量的斜率,在例子中很容易看出,較短的B向量的斜率大於對應的L向量的斜率,但組合的B向量的斜率小於組合的L向量。

有許多形式的非常常見的可視化,特別是在辛普森的維基百科參考的前面:

亞種群的相反斜率

這是一個很好的混淆示例,隱藏變量(分隔兩個子群體)如何顯示不同的模式。

然而,在數學上,這樣的圖像絕不對應於列聯表的顯示,而列聯表是被稱為辛普森悖論的現象的基礎。首先,回歸線是實值點集數據,而不是列聯表中的計數數據。

此外,可以在回歸線中創建具有任意斜率關係的數據集,但在列聯表中,斜率的不同程度受到限制。也就是說,總體的回歸線可以與給定子總體的所有回歸正交。但在辛普森悖論中,子種群的比率雖然不是回歸斜率,但不能偏離合併後的種群太遠,即使在另一個方向上也是如此(再次參見維基百科的比率比較圖像)。

對我來說,每當我將後一張圖片視為辛普森悖論的可視化時,這足以讓我大吃一驚。但是由於我到處都看到(我稱之為錯誤的)示例,我很想知道:

  • 我是否錯過了從原始 Simpson/Yule 列聯表示例到證明回歸線可視化的真實值的微妙轉換?
  • 當然,辛普森氏症是混淆錯誤的一個特殊例子。術語“辛普森悖論”現在是否等同於混雜錯誤,因此無論數學如何,通過隱藏變量的任何方向變化都可以稱為辛普森悖論?

附錄:以下是 2xmxn(或 2 x m 連續)表的泛化示例: 相對於距離的籃筐百分比,隱藏變量是投籃類型

如果結合投籃類型,當防守者更接近時,看起來球員投籃次數更多。按投籃類型(實際距離籃筐的距離)分組,出現的情況越直觀,投籃次數越多,防守隊員越遠。

我認為這張圖片是辛普森對更連續情況(防守者的距離)的概括。但是我仍然沒有看到回歸線示例是辛普森的示例。

矛盾的是,存在 2x2x2 列聯表(Agresti,分類數據分析),其中邊際關聯與每個條件關聯的方向不同 […] 我是否錯過了從原始 Simpson/Yule 列聯表示例到證明回歸線可視化的真實值?

主要問題是您將一種簡單的方法等同於將悖論顯示為悖論本身。列聯表的簡單例子本身並不是悖論。辛普森悖論是關於在比較邊際關聯和條件關聯時相互衝突的因果直覺,這通常是由於符號反轉(或極端衰減,如獨立性,如辛普森本人給出的原始示例中沒有符號反轉)。當您對這兩種估計進行因果解釋時,就會出現悖論,這可能會導致不同的結論——治療是幫助還是傷害了患者?您應該使用哪個估算值?

矛盾模式是否出現在列聯表或回歸中,都無關緊要。所有變量都可以是連續的,悖論仍然可能發生——例如,你可能有這樣一種情況然而.

當然,辛普森氏症是混淆錯誤的一個特殊例子。

**這是不正確的!**辛普森悖論不是混淆錯誤的特定實例——如果只是這樣,那麼根本就不存在悖論。畢竟,如果您確定某些關係被混淆了,那麼您在列聯表或回歸係數中看到符號反轉或衰減不會感到驚訝——也許您甚至會預料到這一點。

因此,雖然辛普森悖論是指在比較邊際關聯和條件關聯時“效果”的逆轉(或極端衰減),但這可能不是由於混淆和先驗你無法知道邊際表還是條件表是“正確的” ” 一個諮詢回答您的因果問題。為此,您需要更多地了解問題的因果結構。

考慮Pearl 中給出的這些示例: 在此處輸入圖像描述

想像一下,你對總的因果效應感興趣在. 所有這些圖中都可能發生關聯的逆轉。在 (a) 和 (d) 中,我們有混淆,你會調整. 在 (b) 中沒有混淆,是調解員,你不應該調整. 在 (c)是一個對撞機,沒有混淆,所以你不應該調整任何一個。也就是說,在其中兩個示例(b 和 c)中,您可以觀察到辛普森悖論,但是,沒有任何混淆,您的因果查詢的正確答案將由未調整的估計值給出。

珀爾對為什麼這被認為是一個“悖論”以及為什麼它仍然使人們感到困惑的解釋是非常合理的。以(a)中描述的簡單情況為例:因果效應不能像那樣簡單地逆轉。因此,如果我們錯誤地假設這兩個估計都是因果關係(邊際和條件),我們會驚訝地看到這樣的事情發生——而且人類似乎天生就可以看到大多數關聯中的因果關係。

所以回到你的主要(標題)問題:

辛普森悖論是否涵蓋了隱藏變量反轉的所有實例?

從某種意義上說,這就是目前對辛普森悖論的定義。但顯然條件變量不是隱藏的,它必須被觀察,否則你不會看到悖論發生。這個悖論的大部分令人費解的部分源於因果考慮,這個“隱藏”變量不一定是混雜因素。

列聯表和回歸

正如評論中所討論的,使用二進制數據運行回歸併計算列聯表中的比例差異的代數恆等式可能有助於理解為什麼回歸中出現的悖論具有相似的性質。想像一下你的結果是, 你的治療和你的團體, 所有變量都是二進制的。

那麼整體的比例差異就是簡單的回歸係數在. 使用您的符號:

同樣的事情也適用於每個子組如果你運行單獨的回歸,一個用於:

另一個為:

因此,就回歸而言,悖論對應於估計第一個係數在一個方向和子組的兩個係數 與整個人口的係數方向不同.

引用自:https://stats.stackexchange.com/questions/316319

comments powered by Disqus