Simpson의 역설은 숨겨진 변수의 모든 역전 사례를 포함합니까?


10

다음은 심슨의 역설이 존재한다는 '그림으로 증명 된'것으로 제시된 많은 시각화에 대한 질문이며 아마도 용어에 대한 질문입니다.

심슨의 역설은 매우 간단 현상을 설명하고 (이유의 수치 예를 제공하는 것입니다 이 깊고 재미 발생할 수에게). 역설은 한계 연관이 각 조건부 연관과 다른 방향을 갖는 2x2x2 우발 테이블 (Agresti, Categorical Data Analysis)이 존재한다는 것입니다.

즉, 두 하위 집단의 비율 비교는 둘 다 한 방향으로 진행될 수 있지만 결합 모집단의 비교는 다른 방향으로 진행됩니다. 기호로 :

존재 , B , C , D , E , F , G를 , H 되도록 +의 Ba,b,c,d,e,f,g,h

a+bc+d>e+fg+h

하지만

ac<eg

bd<fh

이는 Wikipedia 의 다음 시각화에서 정확하게 표현됩니다 .

벡터의 심슨 역설

분수는 단순히 해당 벡터의 기울기이며 예제에서 짧은 B 벡터가 해당 L 벡터보다 더 큰 기울기를 가지고 있지만 결합 된 B 벡터는 결합 된 L 벡터보다 작은 기울기를 가짐을 쉽게 알 수 있습니다 .

여러 가지 형태로 매우 일반적인 시각화가 있으며, 특히 심슨의 위키 백과 참조 앞면에 있습니다.

하위 인구의 반대 경사

이것은 숨겨진 변수 (두 개의 하위 모집단을 구분하는)가 다른 패턴을 표시 할 수있는 방법에 대한 혼란의 좋은 예입니다.

그러나 수학적으로 이러한 이미지는 Simpson의 역설이라고 알려진 현상을 기반으로하는 우발성 테이블의 표시에 해당하지 않습니다 . 첫째, 회귀선은 우발성 테이블의 데이터를 계산하지 않고 실제 값 세트 데이터를 초과합니다.

또한 회귀선에서 기울기와 임의의 기울기를 사용하여 데이터 세트를 만들 수 있지만 우발 표에서는 기울기가 얼마나 다른지에 대한 제한이 있습니다. 즉, 모집단 의 회귀선은 주어진 부분 집단의 모든 회귀에 직교 할 수 있습니다 . 그러나 Simpson의 역설에서 회귀 기울기는 아니지만 하위 집단의 비율이 다른 방향으로도 합병 된 인구와 너무 멀어 질 수는 없습니다 (다시 말하면 Wikipedia의 비율 비교 이미지 참조).

나에게 그것은 심슨의 역설을 시각화하는 것으로 후자의 이미지를 볼 때마다 되돌아 가기에 충분하다. 그러나 (제가 잘못 부르는) 예제가 어디에서나 보이므로 궁금합니다.

  • 비상 테이블의 원본 Simpson / Yule 예제에서 회귀선 시각화를 정당화하는 실제 값으로 미묘한 변환이 누락 되었습니까?
  • 분명히 심슨은 혼란스러운 오류의 특정 사례입니다. 용어 '심슨의 역설은'지금이되었다 동일시 그래서 무엇이든 수학, 오류를 교란으로 어떤 숨겨진 변수를 통해 방향으로 변화가 심슨의 역설이라고 할 수 있는가?

부록 : 다음은 2xmxn (또는 연속적으로 2xm) 테이블에 대한 일반화의 예입니다. 거리와 관련하여 만들어진 바구니 비율, 숨겨진 변수는 샷 유형입니다

샷 유형에 합쳐지면 방어자가 가까이있을 때 플레이어가 더 많은 샷을하는 것처럼 보입니다. 샷 유형 (실제 바구니와의 거리)별로 그룹화하면보다 직관적으로 예상되는 상황이 발생하며 더 많은 샷이 수비수보다 멀어집니다.

이 이미지는 내가 심슨을보다 지속적인 상황 (수 비자의 거리)으로 일반화 한 것으로 간주한다. 그러나 회귀선 예제가 어떻게 심슨의 예제인지 아직 아직 알지 못합니다.


5
심슨의 역설은 범주 형 대상 데이터에만 적용되지 않습니다. 최종 그래프에서와 같이 범주 형 요인이 영향을 미치는 연속 대상 데이터는 역설의 대상이 될 수 있습니다. 핵심은 관심 변수가 범주 형인지 아닌지 또는 관심 변수에 영향을 미치는 다른 모든 요소가 범주 형인지 여부가 아니라 "범주 적 요인"입니다.
jbowman

@jbowman OK, SP가 범주 형 데이터를 넘어 연속적으로 일반화 될 수 있음을 알 수 있습니다 (일반화는 보지 못했습니다 .SP에는 항상 비상 표가 표시되는 것처럼 보입니다). 그러나 두 번째 그래프가 어떻게 나타나는지 알 수 없습니다. 나는 "숨겨진 변수가 방향을 바꿀 수있다"라는 명백하지만 모호한 은유를 보았지만, 일반화가 수학적으로 / 정확하게 작동하는 방식을 보지 못했다.
Mitch

1
"실제"데이터가 두 개의 컬러 라인을 따르도록하는 숨겨진 범주 형 요인이 있지만, 그 정보를 알지 못하면 데이터가 점선을 따르는 것처럼 보입니다. 연령별 사고를 범주가 아닌 목표 및 x 축 변수로 고려하십시오. 나이가 들면서 내려가는 것 같습니다. 이제 "취한 동안 운전"의 "숨겨진 요소"를 추가하십시오. 파란 선은 "술에 취한 상태에서 운전", 빨간색은 "술에 취하지 않은 상태에서 운전"입니다. 젊음과 관련된 숨겨진 요소를 고려할 때 사고는 나이와 함께 올라갑니다! (가장 현실적인 예는 아니지만 인정해야하지만 그것이 중요한 아이디어입니다 ...)
jbowman

@jbowman SP가 아닌 혼란스러운 오류에 대한 설명처럼 들립니다. 아마도 당신은 SP와 혼란이 동일하다고 말합니다. 그러나 그것은 대답의 방향으로 들립니다. 어쩌면 좀 더 공식화하고 SP와의 연결을보다 명확하게 만들 수 있습니다 (회귀선이 어떻게 우발 사태 표 사례의 비율 비교와 같은지 수학적으로 설명).
Mitch

1
xp

답변:


8

역설은 한계 연관이 각 조건부 연관과 다른 방향을 갖는 2x2x2 우발성 표 (Agresti, Categorical Data Analysis)가 존재한다는 것입니다. [...] 우발성 표의 원래 Simpson / Yule 예에서 미묘한 변환이 누락되었습니다. 회귀선 시각화를 정당화하는 실제 값?

주요 문제는 역설을 역설 자체로 보여주는 간단한 방법을 동일시하고 있다는 것입니다. 우발 사태 표의 간단한 예는 역설 그 자체가 아닙니다. Simpson의 역설은 주변 및 조건부 연관을 비교할 때 인과 관계가 상충되는 것에 관한 것으로, 대부분 부호 반전 (또는 부호 반전 이없는 Simpson 자신의 원래 예에서 와 같이 독립성과 같은 극심한 감쇠) 으로 인해 발생합니다 . 역설은 두 추정치를 인과 적으로 해석 할 때 발생하며, 다른 결론으로 ​​이어질 수 있습니다. 그리고 어떤 견적을 사용해야합니까?

E(Y|X)X>0E(Y|X,C=c)X<0,c

분명히 심슨은 혼란스러운 오류의 특정 사례입니다.

이것은 맞지 않습니다! Simpson의 역설은 혼란스러운 오류의 특정 사례가 아닙니다. 그것이 바로 그럴 경우 역설이 전혀 없을 것입니다. 결국, 어떤 관계가 혼란 스러우면 우연성 테이블이나 회귀 계수에서 부호 반전이나 감쇠가 나타나는 것에 놀라지 않을 것입니다.

따라서 심슨의 역설은 한계 및 조건부 연관을 비교할 때 "효과"의 역전 (또는 극도의 감쇠)을 의미하지만, 이는 혼동이 아니기 때문에 우선 순위가 없거나 한계 테이블이 "올바른지"알 수 없습니다. "귀하의 인과 관계에 대한 답변을 위해 상담하십시오 그러기 위해서는 문제의 인과 구조에 대해 더 알아야합니다.

Pearl에 주어진 다음 예제를 고려하십시오 . 여기에 이미지 설명을 입력하십시오

XYZZZZZ

이것이 왜 "역설"로 여겨지고 왜 사람들을 당황하게하는지에 대한 Pearl의 설명은 매우 그럴듯합니다. 예를 들어 (a)에 묘사 된 간단한 사례를 보자. 우리가 실수로 가정하는 경우 따라서, 모두 추정치는 인과 (한계 및 조건), 우리는 그런 일이 일어나고을보고 놀라게 될 것입니다 --- 인간은 것 같다 유선 대부분의 연관에서 원인을 볼 수 있습니다.

다시 주요 질문으로 돌아가십시오.

Simpson의 역설은 숨겨진 변수의 모든 역전 사례를 포함합니까?

어떤 의미에서 이것은 현재 심슨 역설의 정의입니다. 그러나 분명히 컨디셔닝 변수는 숨겨져 있지 않습니다. 그렇지 않으면 패러독스가 발생하지 않는 것을 관찰해야합니다. 역설의 수수께끼 부분의 대부분은 인과 적 고려에서 비롯된 것이며이 "숨겨진"변수가 반드시 혼란스러운 것은 아닙니다.

연속성 테이블 및 회귀

yxz

yx

a+bc+de+fg+h=cov(y,x)var(x)

zz=1

aceg=cov(y,x|z=1)var(x|z=1)

z=0

bdfh=cov(y,x|z=0)var(x|z=0)

따라서 회귀 측면에서 역설은 첫 번째 계수 추정에 해당합니다(cov(y,x)var(x))(cov(y,x|z)var(x|z))(cov(y,x)var(x))


1
Simpson의 역설은 한계 및 조건부 연관의 차이 가능성뿐만 아니라 데이터를 해석 할 때 어느 것이 "올바른"사용에 대한 혼란을 가리키는 것 같습니까? 그리고 Pearl은 인과 적 구조가 이것을 결정하기 위해 사용해야하는 것임을 보여줍니다.
Paul

2
"Simpson의 역설은 한계 및 조건부 연관을 비교할 때 충돌하는 직관에 관한 것입니다." 여기에 동의하지 않습니다 .Simpson의 역설은 원유와 층화 된 결과를 비교할 때 특히 부호 뒤집기를 나타냅니다.
AdamO

2
@AdamO 대부분의 사람들이 심벌 반전의 극단적 인 사례를 심슨 역설의 "엄격한"정의로 사용하지만 심슨의 원래 예는 실제로 사인 반전이 없었습니다.
Carlos Cinelli

1
@Paul 맞습니다.
Carlos Cinelli

2
@AdamO 나는 이것이 왜 "역설"으로 여겨지고 왜 사람들이 여전히 퍼즐을 만드는지에 대한 Pearl의 설명이 그럴듯하다고 생각합니다. 예를 들어 (a)의 단순한 경우에, 인과 관계 효과는 그렇게 간단하게 반전 될 수 없습니다. 그러므로 우리가 두 경우 모두에 대해 인과 적으로 생각한다면, 우리는 그러한 일이 일어나는 것을보고 놀라게 될 것입니다. 그리고 인간은 대부분의 협회에서 인과 관계를 보게됩니다.
Carlos Cinelli

2

비상 테이블의 원본 Simpson / Yule 예제에서 회귀선 시각화를 정당화하는 실제 값으로 미묘한 변환이 누락 되었습니까?

예. Y 축에서 반응의 로그-홀수를 시각화하여 범주 형 분석의 유사한 표현이 가능합니다. Simpson의 역설은 결과의 지층 참조 로그에 따라 거리에 가중치를 둔 지층 별 추세에 대해 "조잡한"선과 거의 같은 방식으로 나타납니다.

버클리 입학 데이터를 사용한 예입니다

여기에 이미지 설명을 입력하십시오

여기서 성별은 남성 / 여성 코드이고, X 축은 남성 대 여성의 원유 입학 기록이며, 검은 점선은 성별 선호도를 나타냅니다. 양의 기울기는 남성 입학에 대한 편향을 나타냅니다. 색상은 특정 부서에 대한 입학을 나타냅니다. 두 가지 경우를 제외하고 부서별 성별 선호도 선의 기울기는 음수입니다. 이러한 결과가 상호 작용을 설명하지 않는 로지스틱 모델에서 평균화되는 경우 전체적인 효과는 반대되는 여성 입원을 반대하는 것입니다. 그들은 남성보다 더 어려운 부서에 더 자주 적용했습니다.

분명히 심슨은 혼란스러운 오류의 특정 사례입니다. 'Simpson 's Paradox'라는 용어가 이제 혼란스러운 오류와 동일 해져서 수학, 숨겨진 변수를 통한 방향 변경을 Simpson 's Paradox라고 할 수 있습니까?

간단히 말해서 심슨의 역설은 단순히 "무엇"이고, 혼란은 "왜"이다. 지배적 인 논의는 그들이 동의하는 곳에 초점을 맞추었다. 혼란은 추정에 최소한의 영향을 미치거나 무시할 수 있으며, 심슨의 역설은 극적이지는 않지만 비 혼란 자에 의해 발생할 수 있습니다. 참고로 "숨김"또는 "숨김"변수라는 용어는 정확하지 않습니다. 역학자의 관점에서, 연구의 신중한 통제와 설계는 가능한 기여자들의 혼란스러운 편견에 대한 측정이나 통제를 가능하게해야한다. 문제가되기 위해 "숨겨 질"필요는 없습니다.

혼란이 초래되지 않는 포인트 추정치가 반전 포인트에 따라 크게 달라질 수있는 시간이 있습니다. 충돌체와 중재자 효과 바꾸어 되돌릴 수 있습니다. 인과 관계 추론은 효과를 연구하기 위해 계층화 된 추정치가 잘못 되었기 때문에 주 효과는 이들을 조정하기보다는 개별적으로 연구해야한다고 경고한다. (의사를 만나면 몸이 아프거나 총이 사람을 죽이므로 사람들이 사람을 죽이지 않는다는 것을 유추하는 것과 비슷하다).


심슨의 원래 사례가 "심슨의 역설"의 사례가 아니라고 말할 수 있습니까?
Carlos Cinelli

@CarlosCinelli 어떤 예를 언급 하시겠습니까? 나는 Simpson의 1951 년 논문에 접근 할 수 없지만, 그것이 JRSS에 출판되고 초록에 적용된 예제에 대한 언급이 없다면, 순전히 이론적 인 작품처럼 보인다.
AdamO

9 항과 10 항의 수치 예이며, 두 가지 다른 인과 관계 해석으로 이어질 두 개의 다른 스토리가있는 동일한 우발성 표를 제공합니다. 이 예에서는 부호 반전이 없으며 한계 독립성이 있습니다.
Carlos Cinelli

2
여기에서 부호 반전이 왜 중요하지 않은지 알아 보려면 치료가 남성과 여성 모두에게 매우 강한 연관성을 보여 주지만 전체 인구에서 작은 연관성을 보이는 상황을 상상해보십시오. 인과 적으로 해석한다면 이것은 여전히 ​​역설적 일 것입니다.
카를로스시 넬리

@CarlosCinelli 나는 심슨의 역설 그 자체가 아니라 혼란스러운 예라고 말했지만 요점을 밝히지 않을 것입니다. 좋은 주장을 한 것으로 생각되며 아마도 무엇이고 그렇지 않은지에 대한 잘못된 가정을 가지고 있다고 생각합니다 심슨 역설의 애매한 현상.
AdamO
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.