통계 도구를 부적절하게 사용하여 비용이 많이 드는 결과의 예


12

통계 도구를 사용하는 대부분의 사용자는 보조 사용자 (정식에 대한 공식 교육이 거의 없거나 아예없는 사람들) 인 것 같습니다. 동료 검토 논문, 회색 문헌, 웹 또는 회의에서“이전에 완료된”것을 보았 기 때문에 연구자와 다른 전문가들이 데이터에 통계적 방법을 적용하는 것은 매우 유혹적입니다. 그러나 필요한 가정과 통계 도구의 한계에 대한 명확한 이해없이 그렇게하면 잘못된 결과가 발생할 수 있습니다. 오류는 종종 승인되지 않습니다!

학부생 (특히 사회 과학 및 자연 과학)은 통계적 함정을 알지 못하거나 이러한 함정을 중요하지 않은 것으로 발견합니다 (후자가 가장 자주 발생 함). 통계 도구를 부적절하게 사용하는 예는 많은 초급 수준의 교과서, 웹 또는 StackExchange에서 찾을 수 있지만 해로운 결과를 초래 한 실제 사례 (예 : $, 생활에 영향을 미치고 경력 손실)를 찾는 데 어려움을 겪고 있습니다. . 이를 위해 다음과 같은 통계적 방법의 오용을 강조하는 실제 사례를 찾고 있습니다.

  1. 사용 된 통계 방법은 일반적으로 입문 통계 과정 (예 : 추론 통계, 회귀 등) 에서 다룹니다.
  2. 최종 결과는 값 비싼 결과를 초래했습니다 (달러 손실, 삶에 영향을 미치고, 경력이 산산조각 나는 등…)
  3. 데이터를 쉽게 사용할 수 있습니다 과정에서 예를 작업로 사용하기 위해 (목적은 실제 결과가 있었 실제 사례를 통해 학생들의 작업을하는 것입니다.)

연구 프로젝트에서 유닛을 올바르게 정의하는 것의 중요성을 논의 할 때 학생들에게 제시하고자하는 비 통계적 예 는 1 억 2 천 5 백만 달러의 위성이 손실 되는 "메트릭 사고" 입니다! 이것은 보통 학생들의 : -o 요소를 불러 일으키며 (적어도 짧은 학업 기간 동안) 지속적인 인상을 남길 것 같습니다.


2
Edward Tufte의 또 다른 비 통계적 예인 Powerpoint는 Rocket Science를 수행 합니다. 비록 그것은 당신이 언급 한 통계적 사고보다 통계적 사고로부터의 논리적 진행과 조금 더 밀접한 관련이 있지만. 또한이 책인 통계적 중요성의 컬트에 대해 잘 알고 있습니까?
Andy W

@AndyW, 나는 "통계적 중요성의 컬트"에 익숙하지 않습니다. 저의 질문에 요소 2 /와 3 /이 그 책에 언급되어 있는지 아십니까?
MannyG

나는 3에 대해 모른다. 그러나 만약 당신이 책 리뷰를 읽으면 그것에 연결된 당신의 질문 2에 답할 것입니다 (또는 책의 나머지 제목을 읽으십시오!). 유의성 테스트 해석에.
Andy W

@AndyW는 제가 언급하려고했던 바로 그 책입니다.
Peter Flom-Monica Monica 복원

@AndyW는 귀하가 링크를 검토 한 결과이 책의 실제 통계 사용에 대한 실제 예 중 하나를 참조하지만 결과 비용이 해결되는지는 확실하지 않습니다. 이 책에서 결과적 비용이 다루어지면 독자적인 분석이나 저자의 주관적인 의견에 근거 하는가?
MannyG

답변:


8

데이터 가용성에 대해서는 잘 모르겠지만 폐경기 여성의 호르몬 대체 요법 (HRT) 효과에 대한 하버드 간호사의 연구는 잘못된 통계의 좋은 예 (올바른 단어 인 경우)입니다.

일반적인 아이디어는 무엇입니까? 간호사의 연구에 따르면 HRT는 폐경기 이후 여성들에게 유익했습니다. 대조군이 처리 군과 매우 다르고 이러한 차이가 분석에서 고려되지 않았기 때문에이 결과가 발생 함을 알 수 있습니다. 후속 무작위 시험에서, HRT는 암, 심장 마비, 뇌졸중 및 혈병과 관련이있다. 적절한 교정을 통해 간호사의 연구에서 이러한 패턴도 밝혀졌습니다.

HRT와 관련된 미국 사망에 대한 추정치를 찾을 수 없지만 그 규모는 수만 명에 달합니다. 한 기사 는 영국에서 1,000 명의 사망자를 HRT와 연결합니다.

New York Times Magazine 기사는 연구에 존재하는 혼란스러운 문제에 대한 좋은 통계적 배경을 제공합니다.

American Journal of Epidemiology의 이번 호 에는 학술 토론 있습니다. 이 기사는 무작위 간호사 시험을 기반으로 관찰 간호사의 연구 결과와 여성 건강 이니셔티브의 결과를 비교합니다.

Biometrics 의 이슈에서 (동일한 많은 개인에 의한) 토론도 있습니다. Freedman과 Petitti의 의견은 특히 [ prepub version ]을 참조하십시오.


1
이 예제를 실제로 사용하는 것에 반대합니다. 특히 미구엘 에르난에 의해 2005 년부터 더 많은 일이있었습니다을 참조 폐경 후 호르몬 치료와 관상 동맥 심장 질환에 응용 프로그램 : 관찰 연구 분석처럼 무작위 실험 , 역학 (2008). 결론 : "요약에 따르면 WHI와 NHS ITT 추정치의 불일치는 폐경기 이후의 시간 분포와 추적 기간의 차이에 의해 크게 설명 될 수 있음을 시사합니다. NHS는 거의 역할을하지 않는 것 같습니다. "
Fomite

상기 연구에 대해 어떻게 생각하든, 이들의 차이점은 OP의 제안 된 환경에서 유용한 것보다 더 까다 롭고 복잡합니다.
Fomite

@EpiGrad, 이것은 확실히 내 분야가 아니며, 내가하는 것 보다이 특정 예에 대해 더 많이 알고 있다고 확신합니다. 그러나 나는 당신이 인용 한 논문이 다른 논문들과 같은 점을 지적한다고 생각합니다. OSALRE 논문에서 그들은 NHS 연구에서 WHI 연구의 기준을 충족시키지 못하는 여성들을 쫓아냅니다. 폐기 된 여성의 비율은 NHS 치료 및 통제 그룹에 따라 달라야한다 (그렇지 않으면 결과는 변하지 않을 것이다). 그들은 NHS 연구에서 발견 된 선택 문제를 취소하고있다. [[계속]]
찰리

1
내가 좋아하는 논문은 적어도 나에게, 똑바로 혼란스러워하는 문제보다는 "같은 질문을하도록하라"는 내용을 더 제시하고있다. NHS / WHI 문제는 통계 및 공중 보건 실무 문제로 매우 흥미 롭습니다 . 초기 의견 불일치가 제안하는 것보다 훨씬 복잡하므로 OP 요청의 포인트 1에 다소 부적합하다고 생각합니다. 포인트 3도 있습니다.
Fomite

2
@EpiGrad, 충분합니다. 그러나 광범위한 통계적 오류가있어 광범위한 파급 효과가있는 것으로 이해하기 위해 약간의 파고를 요구하지 않는 연구를 발견하게 될 것입니다. 어쩌면 다른 응답자들도 연구원들의 낙관론을 죽일 것입니다.
Charlie

8

1933 년 호레이스 세크리스트의 사업 중개 법 ( Triumph of Mediocrity in Business) 의 간행물을 통해 놀라운 역사적 사례를 얻을 수 있습니다. 당시 Secrist는 잘 정립 된 통계 학자였으며 교과서 (1919 년경 참조)의 저자이며 미국 통계 협회에 잘 연결되어 있으며 노스 웨스턴 대학의 통계 연구 그룹 책임자입니다. 그와 그의 직원들은 이전 10 년 동안 시계열의 비즈니스 데이터를 수집했으며,이 데이터는이 책에서 재생산되고 힘들게 분석되었습니다. 그것은 야심 찬 통계 학자에 의해 요리사 d' oeuvre 가 되어야했다 .

그 해 후반에 JASA에 실린 해롤드 호텔 링의이 책에 대한 검토는 Secrist가 평균에 대한 수백 가지의 회귀 사례 (오늘날 입문 통계 과정의 기본 주제, 질문 # 1)를 문서화 한 것이라고 지적했다. Secrist는 게시 된 답변에 반대했습니다. 이에 대한 Hotelling의 답변은 고전입니다.

값 비싸고 연장 된 수치 연구에 의해 그러한 수학적 결과를 "증명"하는 것은 코끼리들을 행과 열로 배열 한 다음, 다른 많은 종류의 동물들에 대해서도 동일한 방식으로 곱셈 테이블을 증명하는 것과 유사합니다. 아마도 재미 있고 특정 교육 학적 가치가있는 성과는 동물학이나 수학에 중요한 기여가 아닙니다.

[JASA v. 29 # 186, 1934 년 6 월, p. 199.]

Secrist는 그 직후 통계적 장면에서 빨리 사라진 것 같습니다 ( "경력이 망가졌습니다"). 그의 책은 여전히 ​​유효합니다. (몇 년 전에 나는 Interlibrary Loan을 통해 아주 깔끔한 사본을 얻었습니다.)

스티븐 스티 글러 (Steven Stigler)는이 이야기 를 1933 년의 통계와 역사 에 관한 책과 논문에서 설명합니다 .


4

나에게 보인다 유선의 테이크 2008 년 주식 시장 충돌에이 정보를 예 수 있습니다. 결론이 올바른지 여부에 대해서는 언급 할 수 없지만 대표 샘플이 아닌 데이터에 대해 상관 관계를 사용한다는 아이디어는 제안하는 환경에 적합한 것으로 보입니다. 또한 최신 정보이므로 계속 관심을 가질 수 있습니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.