Mathematical-Statistics

你能用方程式而不是列聯表來解釋辛普森悖論嗎?

  • July 3, 2016

我可能對辛普森悖論沒有清楚的認識。非正式地,我知道,在因子 A 的所有可能水平上分組的響應 Y1 的平均值可能高於所有 A 水平上的響應 Y2 的平均值,即使 A 的每個水平(每個組)的 Y1 平均值是總是小於 Y2 的相應平均值。我讀過一些例子,但每次看到它我還是會感到驚訝,也許是因為我沒有通過具體的例子學得很好:我很難概括它們。我學得最好,也更願意看到公式中的解釋。你能解釋一下依靠方程式而不是計數表的悖論嗎?

另外,我認為讓我感到驚訝的原因是,我可能會無意識地對悖論中涉及的平均值做出一些假設,這通常可能不正確。也許我忘記按每組中的樣本數量加權?但是,我想看到一個方程,它告訴我,如果我按每組中的樣本數對每組平均值進行加權,總平均值的估計會更準確,因為(如果這是真的)它並不明顯對我來說。我天真地認為估計當我有更多樣本時,無論加權如何,標準誤差都較低。

以下是用代數方式理解計數數據的辛普森悖論的一般方法。

假設我們有暴露的生存數據,我們創建一個 2x2 列聯表。為了簡單起見,我們將在每個單元格中具有相同的計數。我們可以放寬這一點,但這會使代數變得非常混亂。

\begin{array}{|c|c|c|c|}
\hline
& \text{Died} & \text{Survived} & \text{Death Rate} \ \hline
\text{Exposed} & X & X & 0.5 \ \hline
\text{Unexposed}& X & X & 0.5\ \hline
\end{array}

\begin{array}{|c|c|c|c|}
\hline
& \text{Died} & \text{Survived} & \text{Death Rate} \ \hline
\text{Exposed} & X & X & 0.5 \ \hline
\text{Unexposed}& X & X & 0.5\ \hline
\end{array}

在這種情況下,暴露組和未暴露組的死亡率相同。

現在,如果我們將數據拆分為一組女性和另一組男性,我們將獲得 2 個表,其計數如下:

男性: \begin{array}{|c|c|c|c|}
\hline
& \text{Died} & \text{Survived} & \text{Death Rate} \ \hline
\text{Exposed} & Xa & Xb & \frac{a}{a+b} \ \hline
\text{Unexposed}& Xc & Xd & \frac{c}{c+d}\ \hline
\end{array}

\begin{array}{|c|c|c|c|}
\hline
& \text{Died} & \text{Survived} & \text{Death Rate} \ \hline
\text{Exposed} & Xa & Xb & \frac{a}{a+b} \ \hline
\text{Unexposed}& Xc & Xd & \frac{c}{c+d}\ \hline
\end{array}

對於女性: \begin{array}{|c|c|c|c|}
\hline
& \text{Died} & \text{Survived} & \text{Death Rate} \ \hline
\text{Exposed} & X(a-1) & X(b-1) & \frac{a-1}{a+b-2} \ \hline
\text{Unexposed}& X(c-1) & X(d-1) & \frac{c-1}{c+d-2}\ \hline
\end{array}

\begin{array}{|c|c|c|c|}
\hline
& \text{Died} & \text{Survived} & \text{Death Rate} \ \hline
\text{Exposed} & X(a-1) & X(b-1) & \frac{a-1}{a+b-2} \ \hline
\text{Unexposed}& X(c-1) & X(d-1) & \frac{c-1}{c+d-2}\ \hline
\end{array}

在哪裡 a,b,c,d[0,1] 是聚合數據表中每個單元格中男性的比例。

當暴露男性的死亡率大於未暴露男性的死亡率並且暴露女性的死亡率大於未暴露女性的死亡率時,就會發生辛普森悖論。或者,當暴露男性的死亡率低於未暴露男性的死亡率並且暴露女性的死亡率低於未暴露女性的死亡率時,也會發生這種情況。也就是說,當

(aa+b<cc+d) and (a1a+b2<c1c+d2)

Or 

(aa+b>cc+d) and (a1a+b2>c1c+d2)

作為一個具體的例子,讓 X=100 , 和 a=0.5,b=0.8,c=0.9 . 然後我們將在以下情況下遇到辛普森悖論:

(0.50.8+0.9<0.90.9+d) and (0.510.5+0.82<0.910.9+d2)

(9<d<1.44) and (0.96<d<1.1)

我們由此得出結論 d 必須位於 (0.96,1]

第二組不等式給出:

(0.50.8+0.9>0.90.9+d) and (0.510.5+0.82>0.910.9+d2)

(d<0.9 or d>1.44) and (0.96<d or d>1.44)

這沒有解決方案 d[0,1]

所以對於我們選擇的三個值 a,b,c ,引用辛普森悖論, d 必須大於 0.96。在價值為的情況下 0.99 那麼我們將獲得男性的死亡率

0.5/(0.5+0.8)=38% in the exposed group

0.9/(0.9+0.99)=48% in the unexposed group

對於女性:

(0.51)/(0.5+0.82)=71% in the exposed group

(0.91)/(0.9+0.992)=91% in the unexposed group

因此,男性未暴露組的死亡率高於暴露組,女性未暴露組的死亡率高於暴露組,但暴露和未暴露組的匯總數據中的死亡率相同.

引用自:https://stats.stackexchange.com/questions/221892