가장 흥미로운 통계 역설


답변:


100

역설 그 자체 는 아니지만 적어도 처음에는 수수께끼입니다.

제 2 차 세계 대전 중에 Abraham Wald는 미국 정부의 통계 학자였습니다. 그는 임무에서 돌아온 폭격기를보고 비행기의 총알 "상처"패턴을 분석했습니다. 그는 해군이 비행기가 손상 되지 않은 지역을 강화할 것을 권장했다 .

왜? 우리는이 선택의 효과 직장을. 이 샘플은 관찰 된 영역에 가해진 손상을 견딜 수 있음을 나타냅니다. 손길이 닿지 않은 지역에서는 비행기가 절대로 맞지 않았거나, 그 가능성이 적거나, 해당 부품에 대한 타격이 치명적이었습니다. 우리는 돌아온 비행기 만이 아니라 내려간 비행기를 걱정합니다. 쓰러진 자들은 살아남은 자에게 손대지 않은 곳에서 공격을 당했을 것입니다.

그의 원래 메모의 사본은 여기를 참조 하십시오 . 보다 현대적인 응용 프로그램은 Scientific American 블로그 게시물을 참조하십시오 .

이 블로그 게시물 에 따르면 , 1 차 세계 대전 동안 테마를 확장 하면 주석 헬멧이 도입 되어 표준 천 모자보다 더 많은 머리 상처가 생겼습니다. 새로운 헬멧이 군인에게 더 나빴습니까? 아니; 부상은 더 많았지 만 사망자는 더 낮았습니다.


3
나는 이전에 두 곳에서 이것을 읽은 것을 기억하지만, 참고 문헌이 없습니다. 추가 할 수있는 것이 있습니까?
추기경

1
@ 추기경, 당신을 위해 메모를 찾았습니다. 연구는 실제로 미국을위한 것 같습니다
Charlie

어딘가에이 예제에 대한 가상 비행기의 산점도가 있지만 찾을 수 없습니다.
Fomite

+1. 이것은 아마도 편견 의 가장 해로운 생존자 바이어스 의 예입니다 . 나는 대답으로 확장했습니다.
Cliff AB

47

또 다른 예는 생태 학적 오류 입니다.


오바마 의원 의원 의원의 중앙 소득 (천 단위)에 대한 투표 점유율을 회귀함으로써 투표와 소득의 관계를 찾는다고 가정 해보십시오. 약 20의 절편과 0.61의 경사 계수를 얻습니다.

많은 사람들은이 결과를 더 높은 소득의 사람들이 민주당에 투표 할 가능성이 더 높다고 말합니다. 실제로 인기있는 언론 보도 는이 주장을했다.

하지만 잠깐, 부자들이 공화당이 될 가능성이 더 높다고 생각 했습니까? 그들은.

이 회귀가 실제로 우리에게 말하는 것은 부유 한 주가 민주당 에 투표 할 가능성이 높고 가난한 주가 공화당에 투표 할 가능성이 높다는 것입니다. 주어진 주 내 에서 부자들은 공화당에 투표 할 가능성이 높고 가난한 사람들은 민주당에 투표 할 가능성이 높습니다. Andrew Gelman과 그의 공동 저자 의 작품을보십시오 .

추가 가정이 없으면 그룹 수준 (집계) 데이터를 사용하여 개별 수준 동작에 대한 추론을 할 수 없습니다. 이것이 생태 학적 오류입니다. 그룹 수준 데이터는 그룹 수준 동작에 대해서만 알려줄 수 있습니다.

개인 수준의 추론으로 도약하려면 불변성 가정이 필요합니다 . 여기서 개인의 투표 선택은 국가의 평균 소득에 따라 체계적으로 변하지 않습니다. 버는 사람 $의 풍부한 상태에서 X는 버는 사람으로 민주당을 위해 투표 할만큼 가능성이 있어야합니다 $의 가난한 상태로 X를. 그러나 모든 소득 수준에서 코네티컷 사람들은 동일한 소득 수준 에서 미시시피 사람들보다 민주당에 투표 할 가능성이 더 높습니다 . 따라서 일관성 가정이 위반되고 우리는 잘못된 결론 ( 집합 편향에 의해 속이는)으로 이어진다 .

이 주제는 후기 David Freedman 의 빈번한 취미였다 . 예를 들어이 백서를 참조하십시오 . 이 백서에서 Freedman은 그룹 데이터를 사용하여 개별 수준 확률을 제한하는 수단을 제공합니다.


이 CW의 다른 곳에서는 심슨의 역설과 비교하여 @Michelle은 심슨의 역설을 실제로 좋은 예로 제시합니다. 심슨의 역설과 생태 학적 오류는 밀접한 관련이 있지만 분명합니다. 두 가지 예는 제공된 데이터와 사용 된 분석의 특성이 다릅니다.

심슨 역설의 표준 공식은 양방향 테이블입니다. 여기의 예에서는 개인 데이터가 있고 각 개인을 고소득 또는 저소득으로 분류한다고 가정합니다. 우리는 총 투표 수별 2x2 우발 사태 표를 얻을 것입니다. 우리는 고소득층 사람들의 비율이 저소득층 사람들의 비율에 비해 민주당에 투표 한 것으로 나타났습니다. 각 상태에 대한 비상 대표를 작성해야했지만 반대의 패턴이 나타납니다.

생태 학적 오류에서, 우리는 소득을 이분법 적 (혹은 다중 선택적) 변수로 붕괴시키지 않습니다. 주정부 수준을 얻으려면 평균 (또는 중간) 주 소득과 주 투표 점유율을 얻고 회귀를 실행하고 소득이 높은 주가 민주당에 투표 할 가능성이 더 높다는 것을 알게됩니다. 개별 수준의 데이터를 유지하고 상태별로 회귀를 개별적으로 실행하면 반대 효과가 나타납니다.

요약하면 차이점은 다음과 같습니다.

  • 분석 모드 : SAT 준비 기술에 따라 심슨의 역설은 생태 학적 오류가 상관 계수와 회귀에 의한 것이므로 우연성 테이블에 있다고 말할 수 있습니다.
  • 데이터의 집계 / 특성 : Simpson의 역설 예제는 두 숫자 (고소득 개인의 민주당 투표 점유율과 저소득 개인의 동일한 투표율)를 비교하는 반면, 생태 학적 오류는 50 개의 데이터 포인트 ( , 각 주)를 사용하여 상관 계수를 계산합니다. . Simpson의 역설 예제에서 전체 이야기를 얻으려면 50 개의 각 상태 (100 숫자)의 두 숫자가 필요하지만 생태 오류의 경우 개별 수준 데이터가 필요합니다 (또는 다른 방법으로 제공됩니다) 상태 수준 상관 / 회귀 기울기).


@NeilG의 일반적인 관찰에 따르면 회귀 분석에서 관찰 할 수없는 변수 / 생략 된 변수 바이어스 문제를 선택할 수는 없습니다. 맞습니다! 적어도 회귀 맥락에서, 나는 거의 모든 "역설"이 생략 된 변수 바이어스의 특별한 경우라고 생각합니다.

선택 바이어스를 이끄는 변수를 포함시켜 선택 바이어스 (이 CW의 다른 응답 참조)를 제어 할 수 있습니다. 물론 이러한 변수는 일반적으로 관찰되지 않아 문제 / 역설을 유발합니다. 시간 추세를 추가하여 스퓨리어스 회귀 (나의 다른 응답)를 극복 할 수 있습니다. 이러한 사례는 기본적으로 충분한 데이터가 있지만 더 많은 예측 변수가 필요하다고 말합니다.

생태 학적 오류의 경우에는 더 많은 예측 변수 (여기서는 국가 별 경사 및 절편)가 필요합니다. 그러나 이러한 관계를 추정하려면 그룹 수준이 아닌 개별 수준의 관측치가 더 필요합니다 .

(우연히, 내가 제공하는 2 차 세계 대전 예에서와 같이 선택 변수가 처리와 제어를 완벽하게 나누는 극단적 인 선택이있는 경우 회귀도를 추정하기 위해 더 많은 데이터가 필요할 수 있습니다.


일관성 가정 을 공식화하는 방법은 무엇입니까? 모델에서 누락 된 (인과적인) 혼란자가 없다고 가정하는 것 같습니다.
Neil G

2
또한, 제공되는 예는 상태에 대한 조정이 소득과 당사자 간의 상관 관계를 반전시키기 때문에 Simpson의 역설의 예이기도합니다. 생태 오류는 심슨의 역설과 언제 다릅니 까?
Neil G

또한 개인 수준의 연관성 또는 인과 관계를 기반으로 한 그룹 수준의 연관성 또는 인과 관계에 대한 추론은 매우 나쁘다는 점을 지적 할 것입니다. (1998). 상황을 역학으로 다시 가져 오기 : 다단계 분석의 변수 및 오류. 미국 공중 보건 저널 , 88 (2) : 216–222.
Alexis

43

저의 공헌은 심슨의 역설 입니다.

  • 역설의 이유는 많은 사람들에게 직관적이지 않기 때문에
  • 결과가 사람들을 평범한 영어로 배치하는 방법 인 이유를 설명하기가 정말 어려울 수 있습니다.

    역설의 tl; dr 버전 : 결과의 통계적 유의성은 데이터가 분할되는 방식에 따라 다르게 나타납니다. 원인은 종종 혼란스러운 변수 때문인 것으로 보입니다.

역설의 또 다른 좋은 개요 가 여기 있습니다 .


4
+1, 나는 그것을 스스로 넣는 것에 대해 생각했습니다. 관심있는 사람들을 위해 심슨의 역설은 CV에서도 논의됩니다 : stats.stackexchange.com/questions/21896
gung

3
이 math.SE 질문 에서 언급 한 심슨의 역설에 대한 몇 가지 예가 있습니다 .
Mike Spivey

32

통계에는 역설이 없으며 해결되기를 기다리는 퍼즐 만 있습니다.

x2x0.5x1.25x1.25


E[B|A=a]E[B|A=a]=a=2ap+a2(1p)p=Pr(A<B|A=a)pp=13E[A|B=b]=b=2bq+b2(1q)q=Pr(B<A|B=b)q=13

6
나는이 역설에 대해 프레젠테이션을했는데, 실제로 게임은 청중들과 함께 실제 금액 (대개 호스트 기관에 대한 수표)과 함께 진행됩니다. 그것은 그들의 관심을 얻는다 ...
whuber

우리는 두 개의 봉투 역설 잘못이있다 1) 제안을 인식 할 때 모순이 해결된다 ...이 일을 해결할 생각 0.5 배, 배, 배 ~ 2 배이 두 수량이 봉투에 (예를 들어 x와 때 : 가능 수량 2x) 및 2) 우선 우리는 왼쪽 봉투에 x가 포함되어 있다는 것을 알고 있습니다 (이 경우 오른쪽 봉투에는 100 % 확실성으로 2x가 포함됩니다!). 두 봉투에 무작위로 할당 된 x 및 2x의 가능한 값을 고려할 때 정답은 왼쪽 봉투 또는 오른쪽 봉투를 선택하든 1.5x의 예상 값입니다.
RobertF

3
@RobertF 상황이 더 복잡합니다. 돈이 다음과 같이 두 봉투에 분배되어 있다고 알려져 있다고 가정하십시오. 머리가 착륙 할 때까지 공정한 동전을 던지고 동전이 던져진 횟수 n을 센다. 한 봉투에 2 ^ n 달러를 넣고 다른 봉투에 2 ^ (n + 1)를 넣으십시오. 이제 매우 정확한 기대 계산을 수행하고 역설을 유지할 수 있습니다.
Ittay Weiss

31

잠자는 숲속의 미녀 문제 .

이것은 최근 발명입니다. 그것은 지난 10 년 동안 작은 철학 저널 세트 내에서 심도있게 논의되었다. 두 가지 매우 다른 답변 ( "Halfers"및 "Thirders")에 대한 확고한 지지자가 있습니다. 그것은 신념, 확률, 조절의 본질에 대한 의문을 제기하고 사람들로 하여금 (기괴한 것들 중에서도) 양자 역학적 "많은 세계"해석을 불러 일으켰습니다.

Wikipedia의 진술은 다음과 같습니다.

잠자는 숲속의 미녀 자원 봉사자들은 다음과 같은 실험을했으며 다음과 같은 내용을 모두 들었습니다. 일요일에 그녀는 자게된다. 그런 다음 수행되는 실험 절차를 결정하기 위해 공정한 동전이 던져집니다. 동전이 나오면 월요일에 뷰티가 깨어나고 인터뷰를 한 다음 실험이 끝납니다. 동전이 꼬리에 닿으면 월요일과 화요일에 잠에서 깨어납니다. 그러나 월요일에 다시 잠을 자게되면 기억 상실을 유발하는 약을 복용하게되므로 이전에 깨어 난 것을 기억할 수 없게됩니다. 이 경우 화요일에 인터뷰 한 후 실험이 종료됩니다.

잠자는 숲속의 미녀가 깨어나고 인터뷰 할 때마다, 그녀는 "코인이 머리를 that다는 제안에 대한 당신의 신뢰는 무엇입니까?"라고 물었다.

셋째 위치는 SB가 "1/3"(단순한 베이 즈 정리 계산)이어야하고, 절반 위치는 "1/2"라고 말해야한다는 것입니다. ). IMHO, 전체 논쟁은 확률에 대한 제한된 이해에 달려 있지만, 명백한 역설을 탐구하는 요점이 아닌가?

Florimond 왕자는 잠자는 숲속의 미녀를 찾습니다

( 구텐베르크 프로젝트의 삽화 )


비록 이것이 역설을 해결하려고 노력하는 장소는 아니지만 (그들을 진술하기 위해서만) 나는 사람들을 교수형에 남기고 싶지 않으며이 페이지의 독자 대부분이 철학적 인 설명을보고 싶지 않다고 확신한다. 우리는 ET Jaynes 로부터 팁을 얻을 수 있습니다. 이 질문은“잠자는 숲속의 미녀 문제를 통해 생각하기 위해“인간 상식의 수학적 모델을 어떻게 만들 수 있습니까?”라는 질문을“기계를 어떻게 만들 수 있을까요? 이상적인 상식을 나타내는 명확하게 정의 된 원칙에 따라 유용한 그럴듯한 추론을 수행 할 수 있을까요?”따라서 원하는 경우 SB를 Jaynes의 사고 로봇으로 대체하십시오. 복제 할 수 있습니다실험의 화요일 부분을 위해이 로봇은 (유쾌한 기억 상실 약을 투여하는 대신), 명확하게 SB 설정의 모델을 만들어 모호하게 분석 할 수 있습니다. 통계적 의사 결정 이론을 사용하여 이것을 표준 방식으로 모델링하면 여기에 실제로 두 가지 질문이 있습니다 ( 공평한 동전이 나올 확률은 무엇 입니까?동전이 머리를 탔을 확률은 무엇 입니까? 누가 깨어 났습니까? ). 답은 1/2 (첫 번째 경우) 또는 1/3 (두 번째는 Bayes '정리 사용)입니다. 이 솔루션에는 양자 역학적 원리가 포함되어 있지 않습니다.


참고 문헌

Arntzenius, Frank (2002). 잠자는 미녀에 대한 고찰 . 분석 62.1 pp 53-62. 엘가, 아담 (2000). 자기 위치의 믿음과 잠자는 숲속의 미녀 문제 분석 60pp 143-7.

Franceschi, Paul (2005). 잠자는 미녀와 세계 감소의 문제 . 사전 인쇄.

Groisman, Berry (2007). 잠자는 숲속의 미녀의 악몽의 끝 .

루이스, D (2001). 잠자는 숲속의 미녀 : Elga에 대답하십시오 . 분석 61.3 pp 171-6.

Papineau, David and Victor Dura-Vila (2008). 세번째이자 Everettian : Lewis의 'Quantum Sleeping Beauty'에 대한 답변 .

Pust, Joel (2008). 잠자는 숲속의 미녀 . 합성 160pp 97-101.

Vineberg, Susan (2003 년 기복 ). 아름다움의주의 이야기 .

모든 웹에서 찾을 수 있습니다 (또는 적어도 몇 년 전에 발견되었습니다).


1
"기본 단위"로 솔루션을 공식화하는 것이 똑같이 효과적이라고 생각하십니까? 즉, 기본 장치가 개인인지 아니면 인터뷰인지를 고려해야합니다. 사람의 1/2은 머리를 가졌지 만 인터뷰의 1/3은 끝이났다. 그런 다음 기본 단위를 선택하기 위해 "이 인터뷰가 '머리'결과와 연관 될 가능성은 무엇입니까?"로 질문과 문구를 다시 방문 할 수 있습니다.
Jonathan

1
SB는 인터뷰 횟수를 알지 못하며 실험자의 평가가 아니라 확률 에 대한 그녀의 평가에 관한 질문입니다 . 그녀의 관점에서는 인터뷰 횟수를 결정할 수 없습니다.
whuber

2
아론, 당신은 먼저 문헌의 주장을 읽어야한다고 생각합니다. (저는 제삼자라고 고백하지만, 반은 당신의 설득력있는 설득력을 찾지 못할 것입니다. 최소한 그들의 주장에 결함이있는 이유를 보여 주어야합니다.)
whuber

1
공정한 점, @ whuber, 나는 이제 문헌을 더 자세히 보았습니다. Ellis의 잠자는 숲속의 미녀를 읽고 있습니다 : Elga에게 답장하십시오 . 섹션 '4의 시작 부분에서 저를 걱정하는 것은이 문장입니다. 내 주장 '. "중심이든 중앙에 있지 않은 새로운 관련 증거 만이 신뢰를 변화시킨다." 더 생각하고 블로그를 다시 작성하겠습니다. 나는 다른 7 명의 박사 과정 학생들과 이것에 관해 긴 토론을했습니다!
Aaron McDaid

1
잠자는 숲속의 미녀는 깨어있을 때 달력을 볼 수 있습니까? 월요일이면 P (X = head) = 0.5로 응답해야합니다. 화요일이면 P (X = head) = 0입니다.
RobertF

25

상트 페테르부르크의 역설 한다, 당신은 개념의 의미를 다르게 생각하는 예상 값 . (주로 사람의 직관 및 계산 통계의 배경은) 다른 결과를주고있다.


5
X1,X2,nX¯nN(0,1)Var(nX¯n)17

@cardinal 이것에 대한 세부 사항을 별도의 답변으로 게시 할 수 있습니까?
Silverfish

Xif(n)fVar(nX¯n)

Xif(i)XiVar(nX¯n)=1ni=1nf(i)f(i)Var(nX¯n)

22

제프리스 - 린의 역설 어떤 상황에서 완전히 모순 된 답변을 줄 수있는 가설 검증의 빈도주의와 베이지안 방법을 기본 보여줍니다. 실제로 사용자는 이러한 형태의 테스트가 무엇을 의미하는지 정확하게 생각하고 그것이 실제로 원하는지 여부를 고려해야합니다. 최근 예제 는이 토론을 참조하십시오 .


20

유명한 두 여아 오류가 있습니다.

두 자녀를 둔 가정에서 자녀 중 하나 가 여자라면 두 자녀가 모두 여자 일 가능성은 무엇입니까?

대부분의 사람들은 직관적으로 말하지만 1/2대답은 1/3입니다. 근본적으로 문제 는 무작위로 "한 명의 형제를 가진 모든 소녀들로부터 무작위 로 한 소녀를 선택하는 것 "은 "두 명의 자녀를 가진 모든 가족과 적어도 하나의 소녀를 가진 한 가족 을 균일하게 선택하는 것과 동일하지 않다 "는 것입니다.


이해하기 만하면 직관적으로 맞출 수있을 정도로 간단하지만 이해하기 어려운 복잡한 버전이 있습니다.

두 자녀를 둔 가정 에서 화요일에 태어난 자녀 중 하나 가 두 자녀 모두 남자 가능성은 무엇 입니까? (답 : 13/27)

두 자녀를 둔 가정에서 자녀 중 하나가 Florida라는 소녀 인 경우 두 자녀가 모두 여자 일 가능성은 무엇 입니까? (답 : "플로리다"가 매우 드문 이름이라고 가정하면 1/2에 매우 가깝습니다)


이 모든 퍼즐에 대한 자세한 정보는 이 답변 에서 찾을 수 있습니다 .
(또한 : 화요일에 태어난 소년에 대한 자세한 정보, Florida라는 여자 에 대한 자세한 정보 )


3
대답은 확실 1/3하지 2/3않습니까? 단 하나의 아웃GB, BG, GG
마틴 스미스

3
「화요일에 태어난 소년」기사가 좋습니다. 그것의 주요 요점은 매우 명확하게 만들어졌다 ( "문제는 정의되어 있지 않다"), 대답은 자신이 채택한 확률 모델에 달려 있다는 것이다. "the"답변이 13/27이라고 말하는 것은 오해의 소지가 있습니다 (최상).
whuber

@ 마틴 : hehe
whoops

2
이러한 문제가 혼동되는 이유는 질문에 단어가 표시되어 가설 공간이 무엇인지 확인하기가 매우 어렵 기 때문입니다. 이것은 "같은 가능성이있는"사례가 실제로 무엇인지 (따라서 무엇을 세어야하는지) 혼동되게한다.
확률 론적

1
p(B1G2)=p(G1B2)p(G1G2)2p(B1G2)+p(G1G2)

12

미안하지만 나 자신을 도울 수 없다 (나도 통계적 역설을 좋아한다!).

다시, 아마도 역설 그 자체가 아니며 생략 된 변수 바이어스의 또 다른 예는 아닙니다 .

스퓨리어스 원인 / 회귀
시간 추세가있는 모든 변수는 시간 추세가있는 다른 변수와 상관됩니다. 예를 들어, 출생부터 27 세까지의 체중은 출생부터 27 세까지의 체중과 높은 상관 관계가있을 것입니다. 분명히, 체중은 체중으로 인한 것이 아닙니다 . 그렇다면 체육관에 더 자주 갈 것을 부탁드립니다.

xtyt

xt=α0+α1t+ϵt andyt=β0+β1t+ηt.

yt=γ0+γ1xt+νt
xtγ1

시계열 분석을 수행 할 때는 변수가 고정되어 있는지 확인해야합니다. 그렇지 않으면 이러한 가짜 원인 결과가 나타납니다.

(나는 여기에 주어진 내 자신의 대답을 표절했다는 것을 완전히 인정한다 .)


11

내가 가장 좋아하는 것 중 하나는 Monty Hall 문제입니다. 나는 초등학교 통계 수업에서 그것에 대해 배운 것을 기억합니다. 우리 둘 다 불신에 있었기 때문에 아빠에게 말하면서 난수를 시뮬레이트하고 문제를 시도했습니다. 놀랍게도 사실이었습니다.

기본적으로 문제는 게임 쇼에 세 개의 문이 있고 그 뒤에 하나가 상이고 다른 두 개가 아무것도 없다면 문을 선택하고 나머지 두 문에 대해 들었다면 두 개 중 하나가 상금 문이 아니라는 것입니다 선택한 경우 현재 문을 나머지 문으로 전환해야합니다.

R 시뮬레이션에 대한 링크도 있습니다 : LINK


7

패 론도의 역설 :

에서 wikipdedia :로 "Parrondo의 역설, 게임 이론의 역설은 설명했습니다. 손실 전략의 조합이 승리 전략이된다 그것은 1996 년 A의 역설을 발견 작성자, 후안 Parrondo, 이름을 따서 명명된다 더 설명 설명입니다 :

승리보다 패배 할 확률이 높은 게임 쌍이 있으며,이를 위해 게임을 번갈아 가며 승리 전략을 구성 할 수 있습니다.

Parrondo는 물리학 자 Richard Feynman이 대중화 한 임의의 열 운동으로부터 에너지를 추출 할 수있는 기계에 대한 생각 실험 인 Brownian ratchet에 대한 그의 분석과 관련하여 역설을 고안했습니다. 그러나 엄격하게 분석하면 역설이 사라진다. "

PB(W)=3/4+ϵPA(W)=1/10+ϵ

" Allison mixture "라고하는보다 최근의 관련 역설이 있는데 , 이는 두 개의 IID와 비 상관 된 계열을 취하고 무작위로 스크램블하여 특정 혼합물이 0이 아닌 자기 상관으로 결과 계열을 만들 수 있음을 보여줍니다.


6

두 자녀 문제와 몬티 홀 문제가 종종 역설의 맥락에서 함께 언급되는 것이 흥미 롭습니다. 둘 다 1889 년 Bertrand 's Box Paradox라고 불리는 겉보기 역설을 보여줍니다. 나는 매우 흥미로운 교육을 받고 지능이 뛰어난 사람들이이 역설과 반대되는 방식으로이 두 가지 문제에 답하기 때문에 가장 흥미로운 "역설"을 발견합니다. 또한 제한 선택 원리 (Principle of Restricted Choice)라고 알려진 브리지와 같은 카드 게임에 사용되는 원리와 비교하여 해상도가 시간 테스트되었습니다.

"상자"라고 부르는 무작위로 선택된 항목이 있다고 가정 해 봅시다. 가능한 모든 상자에는 두 가지 대칭 속성 중 하나 이상이 있지만 일부에는 둘 다 있습니다. 속성을 "골드"와 "실버"라고하겠습니다. 상자가 금일 확률은 P입니다. 속성이 대칭이기 때문에 P는 상자가 단지 은일 확률입니다. 따라서 상자에 속성이 하나만있을 가능성이 2P이고, 상자가 1-2P를 가질 가능성이 있습니다.

상자가 금이라고 말하지만 은이 아닌지 여부는 금일 가능성이 P / (P + (1-2P)) = P / (1-P)라고 유혹 할 수 있습니다. 그러나 단색 상자라고 들었다면 단색 상자에 대해 동일한 확률을 명시해야합니다. 한 가지 색만 들릴 때마다이 확률이 P / (1-P)이면 색을 들지 않아도 P / (1-P) 여야합니다. 그러나 우리는 그것이 마지막 단락에서 2P라는 것을 알고 있습니다.

이 명백한 역설은 상자에 하나의 색만있는 경우 어떤 색이 들릴지 모호하지 않다는 점을 지적함으로써 해결됩니다. 그러나 두 가지가 있으면 내재 된 선택이 있습니다. 당신은 그 질문에 답하기 위해 어떻게 그 선택을했는지 알아야합니다. 그것은 명백한 역설의 뿌리입니다. 당신이 말하지 않으면, 당신은 대답을 P / (P + (1-2P) / 2) = 2P로하여 무작위로 색상을 선택했다고 가정 할 수 있습니다. 당신이 P / (1-P)가 답이라고 주장한다면, 당신은 암시 적으로 다른 색이 유일한 색이 아니라면 언급되었을 가능성이 없다고 가정합니다.

Monty Hall Problem에서 색상에 대한 비유는 매우 직관적이지 않지만 P = 1 / 3입니다. 몬티 홀 (Monty Hall)이 선택을 했음에도 불구하고 자신이 한 문을 열어야한다고 가정했을 때 두 개의 개봉되지 않은 문을 기준으로 한 답은 원래 상 을 받았을 가능성이 높습니다 . 그 대답은 P / (1-P) = 1 / 2입니다. 그가 임의로 선택할 수있는 대답은 전환이 이길 확률에 대해 2P = 2 / 3입니다.

두 자녀 문제에서 내 비유의 색이 성별과 아주 잘 비교됩니다. 4 가지 경우, P = 1 / 4. 이 질문에 대답하려면 가족에 소녀가 있다는 것이 어떻게 결정되었는지 알아야합니다. 그 방법으로 가족의 소년에 대해 배울 수 있다면 대답은 P / (1-P) = 1 / 3이 아니라 2P = 1 / 2입니다. 플로리다 (Florida)라는 이름 또는 "화요일에 태어났다"는 것을 고려하면 조금 더 복잡하지만 결과는 같습니다. 선택의 여지가 있다면 대답은 정확히 1/2이며, 문제에 대한 대부분의 진술은 그러한 선택을 암시합니다. 그리고 1/3에서 13/27, 또는 1/3에서 "거의 1/2"로 "변경"하는 이유는 역설적이고 직관적이지 않은 것처럼 보입니다. 선택의 가정이 직관적이지 않기 때문입니다.

제한된 선택의 원칙에서, 같은 소송의 잭, 여왕, 왕과 같은 동등한 카드 세트가 누락되었다고 가정하십시오. 특정 카드가 특정 상대에게 속하더라도 기회는 시작됩니다. 그러나 상대가 1 장을 플레이 한 후에는 다른 카드 중 하나를 가질 가능성이 줄어 듭니다.


PG=PSP22P(1P)212PPG=PS=.8PGS=1.6PGS=.6P=.5

죄송합니다. 가능한 한 간략하게 설명하려고 잘 설명하지 못했습니다. 내 P는 상자에 금색이있을 확률이 아니라 금일 이었습니다 . 그것이 금을 가질 확률은 1-P입니다. 그리고 두 속성이 의미가 있지만 독립적 일 필요는 없으므로 확률을 곱할 수는 없습니다. 또한 "상자"도 없습니다. 베르트랑은 금 + 금, 금 +은,은 +은 두 개의 동전을 각각 세 개씩 사용했습니다. 금화가 여러 개인 상자는 일반화에서 "금"입니다.
JeffJo

+1, 도움이됩니다. 이제 "두 개 중 적어도 하나"라는 문구와 "단지"라는 단어가 보입니다.
gung

6

[0,1]x,y[0,1]P(x=y)=0xy>xy<xy>x0.5


2
[0,1]yx

2

생태 학적 오류 (여기서 부유 한 주 / 빈국 투표 투표 역설)에 대한 단순화 된 그래픽 일러스트가 주 인구를 집계 할 때 투표 패턴이 반전되는 이유를 직관적 인 수준으로 이해하는 데 도움이됩니다.

여기에 이미지 설명을 입력하십시오


3
이것은 좋은 예이지만 이것이 심슨의 역설이라고 생각합니다. en.wikipedia.org/wiki/Simpson%27s_paradox
Nick

1
@Nick :이 특정 예제는 실제로 Simpson의 Paradox와는 다르지만 통계적으로 동일하게 보이기 때문에 특정 상황에 어떤 오류 / 패러독스가 적용되는지 알기가 어려울 수 있습니다. 차이점은 SP는 하위 그룹을 분석 할 때만 나타나는 "거짓 효과"입니다. 이 추세는 하위 그룹을 분석 할 때만 나타나는 "실제 효과"인 것으로 보입니다. 이 경우, 원수로서의 소득은 전체적으로 투표 패턴에 영향을 미치지 않지만, 이웃 (귀하의 주)과 관련된 소득은 투표 패턴에 영향을 미칩니다.
Jonathan

그것은 아래에 논의 된 생태 학적 오류입니다.
Charlie

3
@Charlie '아래'및 '위'는 페이지의 독자가 정렬하는 방식 (활성 / 가장 오래된 것 / 표)의 어떤 방식 으로든 기능이며, 어떤 경우 든 일부 정렬 기준에 따른 순서는 시간이 지남에 따라 변경 될 수 있습니다 (기본값 포함). . 따라서, 여러분이 언급 한 토론을 게시 한 사람이나 언급 한 사람을 언급하는 것이 좋습니다.
Glen_b

2

어떤 왕국의 왕가에서 출생에 관한 자료를 얻었다 고 가정 해보십시오. 가계도에서 각 출생이 기록되었습니다. 이 가족의 특징은 부모가 첫 아이가 태어나 자마자 아기를 낳으려고했지만 더 이상 아이를 갖지 않았다는 것입니다.

따라서 데이터는 다음과 유사하게 보입니다.

G G B
B
G G B
G B
G G G G G G G G G B
etc.

이 표본에서 남학생과 여학생의 비율이 남학생을 낳을 확률 (0.5)을 반영합니까? 답과 설명은 이 글에서 찾을 수 있습니다 .


2
이 답변은 역설이 아니라 퍼즐처럼 읽습니다. 나는 왜 당신이 그것을 그렇게 게시하고 싶었는지 상상할 수 있지만,이 답변이 역설로 자격이 되고이 스레드에 적합하기 위해서는 더 명확해야한다고 생각합니다.
amoeba

2
이 질문 (남자와 여자가 ​​서로 교환 된)은 stats.stackexchange.com/questions/93830 에서 요청 되었으며 , 이 질문은 전적으로 동의하지는 않았지만 많은 답변을 받았습니다! (나는 문제를 진지하게 받아들이고 점점 현실적으로 생각하면서 무언가를 배웠다.
whuber

@whuber 링크 감사합니다! 설명에 추가했습니다.
Tim

2

이것은 다시 심슨의 역설이지만 '뒤로'와 앞으로의 것입니다. Judea Pearl의 새로운 저서 인 Causal Inference in Statistics : A primer [^ 1]

고전적인 Simpon의 역설은 다음과 같이 작동합니다. 두 의사 중에서 선택하는 것을 고려하십시오. 최상의 결과를 가진 것을 자동으로 선택합니다. 그러나 최상의 결과를 가진 사람이 가장 쉬운 경우를 선택한다고 가정하십시오. 다른 사람의 열악한 기록은 까다로운 작업의 결과입니다.

이제 누구를 선택합니까? 난이도에 따라 계층화 된 결과를보고 결정하는 것이 좋습니다.

계층화 된 결과는 또한 잘못된 선택으로 이어질 수 있다고 동전 (또 다른 역설)의 또 다른 측면이 있습니다.

이번에는 약물 사용 여부를 고려하십시오. 이 약물은 독성 부작용이 있지만 치료 작용 메커니즘은 혈압을 낮추는 것입니다. 전반적으로이 약물은 개체군의 결과를 개선하지만 치료 후 혈압을 계층화 할 때 저혈압 그룹과 고혈압 그룹 모두에서 결과가 악화됩니다. 이것이 어떻게 사실 일 수 있습니까? 우리는 의도하지 않게 결과에 대해 계층화하고 각 결과 내에서 관찰해야 할 모든 것은 독성 부작용입니다.

명확히하기 위해, 약물이 깨진 마음을 고치기 위해 고안되었다고 상상해보십시오. 고혈압을 낮추어 혈압을 낮추는 대신 고정 된 마음으로 계층화합니다. 약물이 효과를 발휘하면 심장이 고정되고 혈압이 낮아 지지만 일부 환자는 독성 부작용을 경험하게됩니다. 약물이 효과가 있기 때문에, '고정 된 심장'그룹은 '깨진'심장 그룹에 약물을 복용하는 환자보다 약물을 복용 한 환자가 더 많습니다. 약물을 더 많이 복용하는 환자는 더 많은 환자가 부작용을 겪고 약물을 복용하지 않은 환자에게 더 나은 결과를 보이는 것을 의미합니다.

약을 먹지 않고 더 좋아지는 환자는 운이 좋다. 약을 복용하고 나아진 환자는 더 좋아지기 위해 약을 필요로하는 환자와 어쨌든 운이 좋았던 환자의 혼합물입니다. '고정 마음'는 환자를 제외한 만 환자를 검사 했을 것이다 그들이 약을 가져 갔다 수정되었습니다합니다. 그러한 환자를 배제한다는 것은 약물을 복용하지 않아서 피해를 배제한다는 의미 이며, 결과적으로 약물 복용으로 인한 피해 만 볼 수 있습니다.

Simpson의 역설은 의사가 까다로운 사례만한다는 사실과 같이 치료 이외의 결과에 원인이있을 때 발생합니다. 일반적인 원인을 제어 (심지어 쉬운 경우)하면 실제 효과를 볼 수 있습니다. 후자의 예에서, 우리는 의도하지 않은 결과에 대해 의도하지 않게 계층화했습니다. 이는 실제 답변이 계층화 된 데이터가 아니라 집계에 있음을 의미합니다.

[^ 1] : Pearl J. 인과 관계 추론. 존 와일리 & 아들; 2016 년


2

저의 "즐겨 찾기"중 하나는 많은 연구의 해석 (그리고 종종 미디어가 아닌 저자 자체에 의한 해석)이 나를 생존 바이어스 (Burvivorship Bias )의 해석에 미치게한다는 것을 의미합니다 .

상상할 수있는 한 가지 방법 은 대상에게 매우 해로운 영향을 미쳐서 죽일 가능성이 매우 높다고 가정합니다. 연구 전에 피험자가이 효과 에 노출되면, 연구가 시작될 때까지 아직 노출 된 피험자는 비정상적으로 회복 될 가능성이 매우 높습니다. 직장에서 말 그대로 자연 선택. 이런 일이 발생하면 노출 된 피험자가 건강에 좋지 않은 것으로 나타났습니다 (모든 건강에 해로운 사람들은 이미 사망했거나 효과에 노출되는 것을 중단했기 때문에). 이는 종종 피폭이 피험자에게 실제로 좋다는 것을 암시하는 것으로 잘못 해석됩니다 . 잘림 을 무시한 결과입니다. (즉, 사망하여 연구에 참여하지 않은 과목을 무시 함).

마찬가지로, 연구 중 효과에 노출되는 것을 중단 한 피험자들은 종종 건강에 해 롭습니다. 이는 지속적인 노출이 아마도 그것들을 죽일 것이라는 사실을 깨닫기 때문입니다. 그러나 연구는 단지 그만두는 사람들이 건강에 좋지 않다는 것을 관찰합니다!

WWII 폭격기에 대한 @Charlie의 대답은 이것의 예라고 생각할 수 있지만 현대적인 예도 많이 있습니다. 최근의 예는 하루에 8 잔 이상의 커피를 마시는 것으로보고 된 연구 입니다(!!)는 55 세 이상의 대상에서 훨씬 높은 심장 건강과 관련이 있습니다. 박사 학위를 가진 많은 사람들은 이것을 연구 저자들을 포함하여 "마시는 커피는 당신의 마음에 좋다!"라고 해석했습니다. 나는 55 세 이후에도 하루에 8 잔의 커피를 마시고 심장 마비가 없어야 할 정도로 건강에 좋은 심장을 가져야한다고 읽었습니다. 그것이 당신을 죽이지 않더라도, 당신의 건강에 대해 무언가 걱정스러워 보이는 순간, 당신을 사랑하는 모든 사람들 (의사와 의사)은 즉시 커피 마시기를 멈추도록 격려 할 것입니다. 더 많은 연구에 따르면 너무 많은 커피를 마시는 것이 젊은 그룹에게는 유익한 영향을 미치지 않는다는 것이 밝혀졌습니다. 이는 우리가 긍정적 인 인과 적 영향보다는 생존 효과를보고 있다는 증거입니다. 그러나 많은 박사 학위 소지자는 "


나는 당신의 해석을 확신하지 못합니다. 노르웨이에서는 하루에 8 잔의 커피를 마시는 것이 그다지 일반적이지 않으며, 평균 값 (어린이 및 기타 비 음주 포함)은 하루에 약 2 컵입니다. 핀란드의 평균은 하루에 약 2.5 컵입니다. 나는 하루에 모에 탄 10 컵을 마시 곤했지만 더 이상은 아니었다.
kjetil b halvorsen

1

Newcombe의 역설에 대해서는 아직 아무도 언급 하지 않았지만 의사 결정 이론에서 더 많이 논의되고 있습니다. 확실히 내가 가장 좋아하는 것 중 하나입니다.


-2

x, y 및 z를 상관되지 않은 벡터로 만듭니다. 그러나 x / z와 y / z는 서로 관련이 있습니다.


2
왜 이것이 역설입니까? 직관적 인 것 같습니다.
lcrmorin 2016 년

2
이것이 일반적이 아니라면 놀랐을 것입니다.
Glen_b

1
x/zx/zzX,Y,Z
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.