심슨의 역설 이해하기 : 성별과 신장에 대한 회귀 소득을 가진 앤드류 겔먼의 사례


22

최근 블로그 게시물 중 하나 에서 Andrew Gelman 은 다음과 같이 말합니다.

  1. 나는 심슨의 역설에 반의 상이나 잠재적 인 결과가 필요하다고 생각하지 않는다. 나는 조작 할 수 없거나 조작이 직접 관심이없는 변수로 심슨의 역설을 설정할 수 있기 때문에 이것을 말합니다.

  2. Simpson의 역설은 예측 변수를 더 추가하면 회귀 계수가 변경되는 일반적인 문제의 일부로, 부호 뒤집기가 실제로 필요하지는 않습니다.

다음은 두 가지 점을 모두 설명하는 교수법에서 사용하는 예입니다.

성별과 신장으로 인한 수입을 예측하는 회귀 분석을 실행할 수 있습니다. 나는 섹스의 계수가 $ 10,000 (즉, 같은 높이의 남자와 여자를 비교하면 평균 남자가 $ 10,000를 더 만들 것입니다 )이고 키의 계수는 $ 500입니다 (즉, 두 남자 또는 두 여자를 비교) 키가 다른 사람은 키가 큰 사람이 평균 키당 500 달러를 더 많이 벌 수 있습니다 ).

이 소들을 어떻게 해석 할 수 있습니까? 나는 높이의 코프가 해석하기 쉽다고 생각합니다 (동일한 성별의 두 사람을 다른 높이와 비교하는 것은 상상하기 쉽습니다). 사실 원시의 많은 것만 큼 섹스 통제 하지 않고 키를 회귀시키는 것이 어떻게 든“잘못”된 것처럼 보일 것 입니다 키가 큰 사람과 키가 큰 사람의 차이는 남성과 여성의 차이로 설명 할 수 있습니다. 그러나 위의 모델에서 섹스의 계수는 해석하기가 매우 어려워 보입니다. 예를 들어 66 인치의 남자와 여자를 비교하는 이유는 무엇입니까? 그것은 키 큰 여자와 키가 작은 남자의 비교 일 것입니다. 이 모든 추론은 모호하게 보이는 것처럼 보이지만 잠재적 인 결과를 사용하여 그것에 대해 생각하는 것은 이치에 맞지 않습니다.

나는 그것에 대해 숙고하고 (또한 게시물에 댓글을 달았습니다) 여기에 더 명확하게 이해해야 할 것이 있다고 생각합니다.

성별 해석에 대한 부분까지는 괜찮습니다. 그러나 나는 키가 작은 남자와 키가 큰 여자를 비교하는 데 어떤 문제가 있는지 알지 못합니다. 여기에 내 요점이있다 : 사실 그것은 더 큰 의미가있다 (남자들이 평균적으로 키가 크다는 가정이 주어진다). 똑같은 이유로 '짧은 남자'와 '짧은'여자를 비교할 수는 없습니다. 소득의 차이는 키의 차이로 일부 설명됩니다. 키가 큰 남자와 키가 큰 여자의 경우도 마찬가지이며, 키가 큰 여자와 키가 큰 남자의 경우도 마찬가지입니다. 따라서 기본적으로 키의 영향은 키가 작은 남자와 키가 큰 여자를 비교할 때만 제거됩니다 (성에 대한 계수 해석에 도움이 됨). 인기있는 매칭 모델 뒤에 유사한 기본 개념에 종을 울리지 않습니까?

Simpson의 역설 뒤에 숨겨진 아이디어는 집단 효과가 하위 그룹 현명한 효과와 다를 수 있다는 것입니다. 이것은 그의 관점 2와 관련이 있으며 높이를 혼자 제어해서는 안된다는 사실을 인정한다는 사실입니다 (우리는 가변 바이어스를 생략했습니다). 그러나 나는 이것을 성계 수에 관한 논란과 관련시킬 수 없었다.

좀 더 명확하게 표현할 수 있을까요? 아니면 내 이해에 대한 의견?


교차 유효성 검사는 모집단의 임의의 하위 집합을 검토하여 최소한의 과적 합 및 최상의 일반화를 시도합니다.
EngrStudent-복직 모니카

1
당신의 우려를 올바르게 이해한다면 주님의 역설을 살펴보면 도움이 될 것입니다. @article {lord67, author = {주, FM}, 제목 = {그룹 비교 해석의 역설}, 저널 = {Psychological Bulletin}, 연도 = {1967}, 볼륨 = {68}, 페이지 = {304- -305}, 키워드 = {change scores}} @article {lord69, author = {Lord, FM}, title = {기존 그룹을 비교할 때 통계 조정}, 저널 = {Psychological Bulletin}, 연도 = {1969}, 볼륨 = {72}, 페이지 = {336--337}, 키워드 = {change scores}}
mdewey

1
유대 진주는 최근 심슨의 역설에 관한 또 다른 글을 올렸습니다 . 나는 그가 Gelman의 발표에 동의하지 않을 것이라고 확신합니다. 한번은 두 번째 요점이 "역설"이 아닙니다. 조건에 따라 결과를 추정하는 것은 수학적 사실입니다. 역설적으로 잠재적 역설을 만드는 것은 두 추정값을 인과 적으로 해석 할 때입니다. 둘째, 왜 조작이 제한 되는가?
NRH

답변:


9

나는 당신의 질문을 완전히 확신하지 못하지만, 모범 모델에서 그의 주장과 혼란에 대해 언급 할 수 있습니다.

앤드류는 과학적 관심이 높이 조절 된 성 소득 협회 또는 섹스 조절 된 고소득층 협회 에 있는지 확실하지 않다 . 인과 모델 프레임 워크에서 섹스 키를 유발 하지만 키 섹스를 유발 하지 않습니다 . 따라서 우리가 섹스의 영향을 원한다면, 키를 조정하면 중재자 편견 이 생길 것입니다 (부자가 많을수록 충돌 자 편견도 가능합니다). 다른 사람 을 해석하는 응용 연구를 보면 혼란스럽고 재미 있습니다.모델에 포함 된 "공변량"(공개 변수 및 정밀 변수) 그것들은 말도 안되지만, 필요한 비교를하기 위해 적절한 층화를 제공합니다. 성별에 따른 소득 차이에 대한 추론에 관심이 있다면 신장을 조절하는 것은 잘못된 일입니다.

나는 심슨의 역설을 설명하기 위해 사실이 필요하지 않다는 데 동의한다. 그것들은 단순히 데이터에 내재 된 특성 일 수 있습니다. 나는 조잡한 RR과 조정 된 RR 모두 인과 관계없이 어떤 의미에서는 맞다고 생각한다. 물론 목표가 인과 관계 분석 일 때 더욱 문제가되고, 과도하게 조정하면 접을 수없는 문제 (OR을 팽창시키는)와 불충분 한 샘플 크기의 문제가 드러납니다.

독자들을위한 알림 : 심슨의 역설은 매우 복잡한 현상으로, 혼란스러운 변수를 제어 한 후 연관성 이 방향바꾼 사례를 말합니다 . 버클리 입학 데이터는 동기 부여 사례입니다. 그곳에서 조잡한 RR은 여성이 버클리에 입국 할 가능성이 적다는 것을 보여 주었다. 그러나 일단 부서 에 의해 계층화 된 RR은 모든 부서에서 여성이 수용 될 가능성더 높음 을 보여 주었다 . 그들은 많은 사람들을 거부 한 어려운 부서에 적용 할 가능성이 높았습니다.

이제는 인과 추론 이론에서 우리가 적용한 부서 성별 유발 한다는 사실을 상상해야 할 것입니다.. 성별이 본질적인 권리입니까? 예, 아니오 Miettenen은 이러한 문제에 대한 "연구 기반"접근 방식을 주장합니다. 인구는 누구입니까? 모든 유자격 학생은 아니며 버클리에 특별히 지원하는 학생입니다. 경쟁이 치열한 부서는 다른 방법으로 신청하지 않았을 때 버클리에 지원하도록 여성을 끌어 들였습니다. 확장하려면 : 심하게 지적인 여성은 엔지니어링 프로그램과 같은 최고의 프로그램에 참여하기를 원합니다. Berkeley가 훌륭한 엔지니어링 프로그램을 가지고 있지 않다면, Berkeley에 지원하지 않았을 것입니다. MIT 또는 CalPoly에 지원했을 것입니다. 따라서 "적용 학생"인구라는 점에서 부서는 성별을 유발하고 혼란을 겪습니다. (캐비티 : 저는 1 세대 대학생이므로 어떤 프로그램이 무엇으로 유명한 지 잘 모릅니다).

이 데이터를 어떻게 요약합니까? 버클리가 여자보다 남자를 신청할 가능성이 더 높다는 것은 사실 입니다. 버클리 부서가 남성을 인정하는 것보다 여성을 인정할 가능성이 더 높다는 것은 사실 입니다. 조잡하고 계층화 된 RR은 원인이 아니더라도 합리적인 조치입니다. 이것은 통계 학자로서 우리의 말로 정확하게 표현 하는 것이 얼마나 중요한지 강조합니다 (겸손한 저자는 자신이 원격으로 정확하다고 가정하지 않습니다).

혼동은 접을 수없는 편향의 또 다른 형태 인 비 붕괴 성 (non-collapsibility)과는 다른 현상이지만, 추정에 약간의 영향을주는 것으로 알려져 있습니다. 로지스틱 회귀 분석과 달리, 비 충돌은 선형 회귀에 편향을 일으키지 않으며 Gelman의 예제에서 연속성 을 고려하는 것이 더 철저하게 설명되어야합니다.

Andrew의 성별 / 높이 조정 소득 모델에서 성 계수에 대한 해석은 모델의 가정의 본질, 즉 선형성의 가정을 나타냅니다. 실제로 선형 모델에서는 특정 여성의 경우 예측할 수 있기 때문에 남성과 여성 간의 이러한 비교가 가능 합니다.관찰되지 않더라도 비슷한 키의 남성이 얻은 것. 효과 수정을 허용하여 여성의 추세 기울기가 남성의 기울기와 다른 경우에도 마찬가지입니다. 다른 한편으로, 나는 키가 같은 남자와 여자를 생각하는 것이 그렇게 미친다고 생각하지 않습니다. 실제로 66 인치는 키 큰 여자와 짧은 남자 일 것입니다. 그것은 심한 외삽이 아니라 온화한 전망입니다. 또한, 모델 가정이 명확하게 설명 될 수 있기 때문에 독자들은 성 계층화 된 소득-높이 협회가 사이에 차용 되거나 평균 된 정보를 가지고 있음을 이해하도록 돕는다남성과 여성의 샘플. 그러한 연관성이 추론의 대상이라면, 진지한 통계학자는 분명히 효과 수정의 가능성을 고려할 것입니다.


2
좋은 토론. 통계 학자로서 사람들이 연구 결과에 대해 이야기 할 때 끝이 나지 않지만, 주변 효과에 대한 이야기인지 확실하지 않습니다.
Cliff AB

1

"예를 들어 66 인치 키가 큰 남자와 여자를 비교하는 이유는 무엇입니까? 키가 큰 여자와 키가 작은 남자의 비교 일 것입니다. "

모델은 소득이 성별과 키에 의존한다고 가정합니다. 그러나 키가 더 높은 소득을 발생시키는 방식은 남녀 모두 동일하지 않을 수 있습니다. 여자는 키가 "충분한"것으로 간주되어 남자는 여전히 짧은 것으로 간주 될 수 있습니다.

다음과 같은 방법으로 모델을 단순화하는 것이 유용 할 수 있습니다.

대형 의류 소매점에서 상점 조교로 고용 될 가능성을 회귀하고 다음 식별 전략을 고려한다고 가정하십시오.

"최소"가 성별과 관련되어있는 특정 최소 키를 충족하는 근로자를 고용주가 고용 할 가능성이 더 높습니다.

키를 cm로 측정하는 대신, 남자와 여자가 ​​각각 키가 "높이"를 정의하는 두 개의 임계 값이 있다고 가정 해 봅시다 : 남성의 경우> = 180 cm, 여성의 경우> = 170 cm

임계 값이 실제로 존재한다고 가정하면 (즉, 고용주가 여성과 키 169cm 또는 171cm 사이의 실제 차이를 크게 만든다) 가정하고 올바른 값이라고 가정하면 키가 큰 / 짧은 남성과 여성을 정의하는 더미를 만들 수 있습니다. 키가 다른 남성과 여성은 여전히 ​​같은 카테고리의 더미에 속할 수 있으며 동시에 측정 값이 특정 노동 시장의 실제 역학과 일치합니다.


-1

소득이 p % 높을수록 남성보다 여성보다 기회가 많다고 말하는 전형적인 성 싸움은 역설적으로 편향적이라고 말하는가?

어쩌면 그것은 요점입니다. 우리는 그것들이 어떻게 생겼는지 보는 경향이 있으며 근본적인 영향을 분석하지는 않습니다.

심슨의 역설을 넘어 서기 위해서는 "여성이 남자와 비교할 때 같은 양의 편견없는 일을하는데 얼마나 많은 돈을 벌게됩니까?"라는 질문에 답해야합니다. 누군가가 임신해야한다고 말할 수 있고, 사실보다 더 많은 자녀를 키울 수 있지만 중요한 문제는 "여성이라는 사실에 대한 여성은 기회가 적다"고 심오한 것입니다. 조건부 통계가있는 분석은 본질적으로 기회가 평등 한 경향이 있으며, 성 문제와 관련이없는 통계 인 것처럼 보이는 통계와 관련이없는 다른 요인이라는 사실을 우리가 보게 할 것입니다.


그러한 분석이 반드시 인과 적이거나 설명적일 필요는 없지만 기존 현상을 설명 할 수 있음을 이해하는 것이 유용 할 수 있습니다.
AdamO
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.