다음은 카운트 데이터에 대한 심슨의 역설을 대수적으로 이해하는 일반적인 방법입니다.
노출에 대한 생존 데이터가 있고 2x2 비 상표를 생성한다고 가정합니다. 일을 단순하게 유지하기 위해 각 셀에서 동일한 개수를 갖습니다. 우리는 이것을 풀 수 있지만 대수학을 상당히 어지럽게 만들 것입니다.
ExposedUnexposedDiedXXSurvivedXXDeath Rate0.50.5
이 경우, 노출 비율과 노출되지 않은 그룹 모두에서 사망률이 동일합니다.
이제 데이터를 여성 그룹과 남성 그룹으로 나누면 다음과 같은 개수로 2 개의 테이블을 얻습니다.
수컷 :
ExposedUnexposedDiedXaXcSurvivedXbXdDeath Rateaa+bcc+d
그리고 여성의 경우 :
ExposedUnexposedDiedX(a−1)X(c−1)SurvivedX(b−1)X(d−1)Death Ratea−1a+b−2c−1c+d−2
여기서 a,b,c,d∈[0,1] 은 집계 된 데이터 테이블에서 남성 인 각 셀의 비율입니다.
노출 남성의 사망률이 노출되지 않은 남성의 사망률보다 큰 경우 심슨의 역설이 발생합니다 및 노출 여성의 사망률이 노출되지 않은 여성의 사망률보다 더 크다. 노출 남성의 사망률이있는 경우 또는, 그것은 또한 발생 덜 노출되지 않은 남성의 사망률에 비해 AND 입니다 노출 여성의 사망률이 덜 노출되지 않은 여성의 사망률보다. 즉
(aa+b<cc+d) and (a−1a+b−2<c−1c+d−2)
Or
(aa+b>cc+d) and (a−1a+b−2>c−1c+d−2)
구체적인 예로서, X=100 , 하자a=0.5,b=0.8,c=0.9 . 그러면 다음과 같은 경우에 심슨의 역설이 생깁니다.
(0.50.8+0.9<0.90.9+d) and (0.5−10.5+0.8−2<0.9−10.9+d−2)
(−9<d<1.44) and (0.96<d<1.1)
여기서 d는 ( 0.96 , 1 ] 에 있어야한다는 결론을 내린다 .(0.96,1]
두 번째 불평등은 다음을 제공합니다.
(0.50.8+0.9>0.90.9+d) and (0.5−10.5+0.8−2>0.9−10.9+d−2)
(d<−0.9 or d>1.44) and (0.96<d or d>1.44)
d ∈ [ 0 , 1 ]에 대한 해가 없습니다d∈[0,1]
그래서 세 가지 값을 우리가 선택하는 , B , 그리고 C 심슨의 역설을 호출, D는 0.96보다 커야합니다. 값이 0.99 인 경우 남성의 사망률은a,b,cd0.99
0.5/(0.5+0.8)=38% in the exposed group
0.9 / 노출 되지 않은 그룹에서 0.9/(0.9+0.99)=48% in the unexposed group
그리고 여성의 경우 :
(0.5−1)/(0.5+0.8−2)=71% in the exposed group
(0.9−1)/(0.9+0.99−2)=91% in the unexposed group
그래서, 남성은 노출 군에 비해 노출되지 않은 그룹의 높은 사망률을 가지고 있고, 여성은 또한 노출 군에 비해 노출되지 않은 그룹의 높은 사망률을 가지고, 아직 집계 데이터의 사망률에 대해 동일 노출과 노출되지 않은 .