xkcd 젤리 빈 만화를 설명하십시오.


59

나는 20 번의 총 테스트 중 중 한 번이 실행되므로 20 번의 테스트 중 하나에서 결과가 중요하다고 잘못 가정합니다 ( 0.05 = 1 / 20 ).p<0.050.05=1/20

xkcd 젤리 빈 만화- "중요한"

  • 제목 : 중요
  • 호버 텍스트 : " '그러므로 우리는 녹색 연구를 다시했는데 관련이 없었습니다.

xkcd comic 882- "중요한"


8
95 %의 신뢰도는 실험의 5 % (20 개 중 1 개)에서 평균적으로 반대 결론을 얻음을 의미합니다. 바로 여기에서 일어난 일입니다. 즉, 오렌지 젤리 빈으로 1000 번 동일한 실험을하면 ~ 50 개의 긍정적 인 결과를 얻을 수 있습니다. :)
sashkello

19
누가 재밌다고 했어?
whuber

3
funniness>0funniness<0(p<.05)


3
@Glen_b, 좋아하는 데이터 분석 만화 스레드는 적절하게 CW이지만, 이것이 반드시 있어야 할 이유는 없습니다. '재미있는 이유'를 제외하고 질문은 만화에서 문제가되는 통계적 요점에 대한 이해를 요구합니다.
gung-복직 모니카

답변:


68

유머는 매우 개인적인 것입니다-어떤 사람들은 재미있게 느낄 수 있지만 모든 사람에게는 재미가 없을 수도 있습니다. 그리고 재미있는 점이 무엇인지 설명하려고 시도합니다. 실제로 모든 xkcd가 실제로 웃기는 것도 아닙니다. 그러나 많은 사람들이 생각을 불러 일으키는 방식으로 중요한 점을 지적하며, 때로는 때로는 그렇게하는 동안 재미있어합니다. (I 부분적으로 그것이 의심, 또는 의심스러운 결과가 (미디어 서커스로 전환하는 방식의 인식 생각한다. 나는 개인적으로 재미 찾을 수 있지만, 나는 그것이 하드 명확하게 정확히 나에게 그것은 재미 만드는 것, 설명을 찾을 수 있는에 이 박사 학위 코믹 도 참조하십시오 .

그러나 재미있는 뼈를 자극하는지 여부를 알 수 있습니다.

n1n

만화에서 Randall은 20 가지 테스트를 묘사 했으므로 그의 주장은 의심의 여지가 없습니다 (아무것도 일어나지 않더라도 중요한 것을 얻을 것으로 예상합니다). 가상의 신문 기사는 부제목 "5 %의 우연의 일치 만!"과 관련된 문제를 강조하기도합니다. (종이에 나온 하나의 테스트 만 유일하게 수행 된 경우에는 해당 될 수 있습니다.)


물론, 개별 연구원이 훨씬 더 합리적으로 행동 할 수 있다는 미묘한 문제가 있지만, 오 탐지에 대한 대중의 홍보 문제는 여전히 발생합니다. 이 연구자들은 각각 1 % 수준에서 5 개의 테스트 만 수행한다고해서 그와 같은 가짜 결과를 발견 할 확률은 약 5 %에 ​​불과합니다.

여태까지는 그런대로 잘됐다. 그러나 이제는 20 개의 연구 그룹이 있다고 상상해보십시오. 각 테스트는 시도 할 이유가 있다고 생각되는 임의의 색상 하위 집합입니다. 아니면 100 개의 연구 그룹 ... 만화에 나오는 것과 같은 헤드 라인의 가능성은 무엇입니까?

보다 광범위하게, 만화는 출판 편향을보다 일반적으로 참조 할 수 있습니다. 중요한 결과 만 나팔을 흘리면 녹색 젤리 빈에 대해서는 아무것도 발견하지 못한 수십 개의 그룹에 대해 듣지 못할 것입니다.

실제로, 그것은 지난 몇 개월 동안 뉴스에 실린이 기사 에서 제기 된 주요 요점 중 하나입니다 ( 예 : 2005 년 기사 임에도 불구하고 여기서 ).

그 기사에 대한 응답은 복제의 필요성을 강조한다. 발표 된 연구의 여러 복제가있을 경우, "그린 젤리 빈이 여드름에 연결됨"결과는 거의 나타나지 않을 것입니다.

실제로 만화에 대한 호버 텍스트는 동일한 요점을 똑똑하게 참조합니다.


11

가설 테스트가 출판 결정에 미치는 영향은 50 년 전에 1959 년 JASA 논문 출판 결정과 그 중요성 테스트에서 도출 된 추론에 미치는 영향 또는 그 반대 (페이 월드에 대한 미안)에 설명되어 있습니다.

논문의 개요이 논문은 과학 논문의 결과가 모든 연구 결과의 대표 샘플이 아니라는 증거를 지적합니다. 저자는 4 가지 주요 심리학 저널에 발표 된 논문을 검토했습니다. 검토 된 논문의 97 %는 주요 과학적 가설에 대해 통계적으로 유의미한 결과를보고했습니다.

저자는이 관찰에 대한 가능한 설명을 진행합니다. 중요하지 않은 결과를 산출하는 연구는 공개되지 않았습니다. 다른 연구자들에게 알려지지 않은 그러한 연구는 우연히 중대한 결과가 발생하고 (유형 1 오류) 공개 될 때까지 독립적으로 반복 될 수 있습니다. 이로 인해 출판 된 과학 문헌에 통계적 유의성 테스트에서 유형 1 오류로 인한 잘못된 결과에 대한 과도한 표현이 포함될 수 있습니다.

이 일반적인 관찰은 이후 몇 년 동안 때때로 확인되고 재발견되었습니다. 나는 1959 년 JASA 논문이 처음으로 가설을 발전 시켰다고 믿는다. 그 논문의 저자는 저의 박사 과정 감독자였습니다. 우리는 35 년 후 그의 1959 년 논문을 업데이트했고 같은 결론에 도달했습니다. 공개 된 판결 결정 : 통계 시험 결과가 공표 결정에 대한 영향 및 그 반대의 영향. American Statistician, Vol 49, No 1, 1995 년 2 월


물론-논문의 개요를 포함하도록 위의 회신을 편집했습니다.
윌프 로젠 바움


-2

사람들이 간과하는 것은 녹색 젤리 빈 케이스의 실제 p- 값은 .05가 아니라 .64입니다. 척 (공칭) p- 값만 0.05입니다. 실제 p- 값과 척 p- 값에는 차이가 있습니다. 모든 null이 true 인 경우에도 공칭 레벨에 도달하는 20 개 중 1 개를 찾을 확률은 .05가 아니라 .64입니다. 반면에, 비교 가능성을보고 증거를 평가하는 경우 (p- 값이 존재하는 오류 통계적 관점을 제외하고 가장 인기있는 견해) H에 대한 증거가 있다고 말할 것입니다. P (x; 효과 없음) <P (x; H)이기 때문입니다. 왼쪽은 <.05이지만 오른쪽은 상당히 높습니다. 녹색 젤리 빈이 여드름을 유발하면 관찰 된 연관성을 찾는 것이 가능할 것입니다. 실제 확률에 도달하기 때문에 가능성만으로는 오류 확률을 파악할 수 없습니다. 녹색 젤리 빈과 여드름에 대한이 단 하나의 테스트가 있었을 때보 다 감정에 차이가 없습니다. 따라서이 만화는 종종 p- 값을 재미있게 만드는 것으로 여겨지지만 재미있는 점은 단순히 확률이 아닌 p- 값과 같이 전반적인 오류 확률을 고려해야하는 이유를 보여줍니다. 베이지안 추론은 또한 오류 확률을 무시하고 결과에 따라 결정됩니다. 베이지 안에서 H에 대한 증거를 찾는 것을 피할 수있는 유일한 방법은 H에서 낮은 우선 순위를 갖는 것입니다. 그러나 우리는 사용 된 사냥 절차 때문에 주제에 상관없이 p- 값을 조정하고 사전에 의존하지 않습니다 테스트 할 가설을 찾습니다. 사냥 된 H가 믿을만하더라도 여전히 시끄러운 테스트입니다. Errorstatistics.com


2
이 게시물이 무엇을 말하려고하는지 정확하게 말하기는 매우 어렵습니다. 설명이 나머지의 의미를 밝힐 수 있기를 바라며 그 중 한 부분에 초점을 맞추겠습니다. "전체 오류 확률"이 정확히 무엇을 의미합니까?
whuber

2
@ whuber 나는 게시물이 다중 비교 문제를 언급하고 있다고 생각합니다.
Matt
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.