긴급 상황 표 대신에 심슨의 역설을 방정식으로 설명해 주시겠습니까?


14

아마도 심슨의 역설에 대한 명확한 이해가 없을 것입니다 . 비공식적으로 나는 모든 가능한 수준의 요인 A에 대해 그룹화 된 반응 Y1의 평균이 각 수준의 A (각 그룹)에 대한 Y1의 평균이 항상 Y2의 해당 평균보다 작습니다. 나는 예제를 읽었지만 그것을 볼 때마다 여전히 놀랍습니다. 어쩌면 구체적인 예제로는 잘 배우지 못했기 때문일 수 있습니다. 일반화하는 데 문제가 있습니다. 나는 공식에서 가장 잘 배우고 오히려 설명하기를 원합니다. 카운트 테이블 대신 방정식에 의존하는 역설을 설명해 주시겠습니까?

또한 나는 놀랍게도 역설에 관련된 평균에 대해 무의식적으로 가정 할 수 있었기 때문에 일반적으로 사실이 아닐 수도 있다고 생각합니다. 어쩌면 각 그룹의 샘플 수로 무게를 잊어 버릴 수 있습니까? 그러나 각 그룹 평균을 각 그룹의 샘플 수로 가중치를 부여하면 총 평균 추정치가 더 정확하다는 것을 보여주는 방정식을보고 싶습니다. 일반적으로 나에게. 순진하게 나는 가중치에 관계없이 더 많은 샘플을 가질 때 의 추정치가 E[Y1]표준 오차가 더 낮다고 생각합니다 .


1
여기 시뮬레이션 과 관련된 게시물이 있습니다 . 시뮬레이션은 심슨의 역설을 이해하는 데 도움이 될 수 있습니다.
Haitao Du

다음 은 주문형 심슨의 역설을 생산하는 기계입니다!
kjetil b halvorsen

답변:


11

다음은 카운트 데이터에 대한 심슨의 역설을 대수적으로 이해하는 일반적인 방법입니다.

노출에 대한 생존 데이터가 있고 2x2 비 상표를 생성한다고 가정합니다. 일을 단순하게 유지하기 위해 각 셀에서 동일한 개수를 갖습니다. 우리는 이것을 풀 수 있지만 대수학을 상당히 어지럽게 만들 것입니다.

DiedSurvivedDeath RateExposedXX0.5UnexposedXX0.5

이 경우, 노출 비율과 노출되지 않은 그룹 모두에서 사망률이 동일합니다.

이제 데이터를 여성 그룹과 남성 그룹으로 나누면 다음과 같은 개수로 2 개의 테이블을 얻습니다.

수컷 :

DiedSurvivedDeath RateExposedXaXbaa+bUnexposedXcXdcc+d

그리고 여성의 경우 :

DiedSurvivedDeath RateExposedX(a1)X(b1)a1a+b2UnexposedX(c1)X(d1)c1c+d2

여기서 a,b,c,d[0,1] 은 집계 된 데이터 테이블에서 남성 인 각 셀의 비율입니다.

노출 남성의 사망률이 노출되지 않은 남성의 사망률보다 큰 경우 심슨의 역설이 발생합니다 노출 여성의 사망률이 노출되지 않은 여성의 사망률보다 더 크다. 노출 남성의 사망률이있는 경우 또는, 그것은 또한 발생 노출되지 않은 남성의 사망률에 비해 AND 입니다 노출 여성의 사망률이 노출되지 않은 여성의 사망률보다. 즉

(aa+b<cc+d) and (a1a+b2<c1c+d2)

Or 

(aa+b>cc+d) and (a1a+b2>c1c+d2)

구체적인 예로서, X=100 , 하자a=0.5,b=0.8,c=0.9 . 그러면 다음과 같은 경우에 심슨의 역설이 생깁니다.

(0.50.8+0.9<0.90.9+d) and (0.510.5+0.82<0.910.9+d2)

(9<d<1.44) and (0.96<d<1.1)

여기서 d는 ( 0.96 , 1 ] 에 있어야한다는 결론을 내린다 .(0.96,1]

두 번째 불평등은 다음을 제공합니다.

(0.50.8+0.9>0.90.9+d) and (0.510.5+0.82>0.910.9+d2)

(d<0.9 or d>1.44) and (0.96<d or d>1.44)

d [ 0 , 1 ]에 대한 해가 없습니다d[0,1]

그래서 세 가지 값을 우리가 선택하는 , B , 그리고 C 심슨의 역설을 호출, D는 0.96보다 커야합니다. 값이 0.99 인 경우 남성의 사망률은a,b,cd0.99

0.5/(0.5+0.8)=38% in the exposed group
0.9 / 노출 되지 않은 그룹에서
0.9/(0.9+0.99)=48% in the unexposed group

그리고 여성의 경우 :

(0.51)/(0.5+0.82)=71% in the exposed group
(0.91)/(0.9+0.992)=91% in the unexposed group

그래서, 남성은 노출 군에 비해 노출되지 않은 그룹의 높은 사망률을 가지고 있고, 여성은 또한 노출 군에 비해 노출되지 않은 그룹의 높은 사망률을 가지고, 아직 집계 데이터의 사망률에 대해 동일 노출과 노출되지 않은 .


16

xy

그룹 A의 데이터는 적합 회귀선이

y=11x

29xy

그룹 B의 데이터는 적합 회귀선이

y=25x

1114xy

x1

(2,9)(11,14)(149)/(112)=0.55xxy

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

enter image description here

빨간색 점과 회귀선은 그룹 A이고 파란색 점과 회귀선은 그룹 B이며 검은 색 선은 전체 회귀선입니다.


안녕하세요, 답변 주셔서 감사하지만 이것은 심슨의 역설의 또 다른 구체적인 예입니다. 나는 구체적으로 정리의 형태 또는 일련의 방정식, 더 추상적이고 일반적인 접근법을 요구했습니다. 어쨌든 다른 대답이 없기 때문에 예제를 연구하고 개념을 일반화하는 데 도움이된다고 생각되면 대답을 받아들입니다.
DeltaIV

3
@ DeltaIV 나는 순수한 대수 인수를 사용하여 새로운 답변을 작성했습니다.
Robert Long
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.