낚시 원정의 문제점은 이것입니다. 충분한 가설을 테스트하면 그 중 하나가 낮은 p 값으로 확인됩니다. 구체적인 예를 들어 보겠습니다.
역학 연구를하고 있다고 상상해보십시오. 드문 상태로 고통받는 1000 명의 환자를 발견했습니다. 공통점이 무엇인지 알고 싶습니다. 따라서 테스트를 시작합니다.이 샘플에서 특정 특성이 과다 표현되는지 확인하려고합니다. 처음에는 성별, 인종, 특정 가족력 (50 세 이전에 심장병으로 사망 한 아버지 등)을 테스트하지만 결국 "고착 된"것을 찾는 데 어려움을 겪으면서 다른 모든 요인을 추가하기 시작합니다. 질병과 관련이 있을 수 있습니다 :
- 채식주의 자
- 캐나다로 여행했다
- 완성 된 대학
- 결혼 한
- 아이들이있다
- 고양이가있다
- 개가있다
- 주당 최소 5 잔의 적포도주를 마신다
…
자 여기 있습니다. 충분한 "무작위"가설을 선택하면, 이들 중 적어도 하나가 0.05보다 작은 p 값을 초래할 가능성이 높아지기 시작합니다. 효과가 없습니다. " 다르게 평균적으로, 당신이 테스트하는 20 개의 가짜 가설마다, 그들 중 하나는 <0.05의 ap를 줄 것입니다 .
이것은 XKCD 만화 http://xkcd.com/882/ 에 아주 잘 요약되어 있습니다 .
비극은 개별 저자가 중요성을 찾기 위해 표본에 대해 20 개의 다른 가설 테스트를 수행하지 않더라도 19 명의 다른 저자가 같은 일을 할 수 있다는 것입니다. 그리고 상관 관계를 "찾는"사람은 이제 흥미로운 논문을 작성하고 출판을 위해 받아 들여질 것입니다…
이는 재현 할 수없는 결과에 대한 불행한 경향이 있습니다. 개별 저자로서 이것을 막는 가장 좋은 방법은 막대를 높이는 것입니다. 개별 요인을 테스트하는 대신 "N 가설을 테스트 할 경우 적어도 하나의 오 탐지가 발생할 확률은 얼마입니까?" 실제로 "낚시 가설"을 테스트 할 때 Bonferroni를 수정 하여이를 방지 할 수는 있지만 사람들은 그렇지 않습니다.
Ioannides 박사의 흥미로운 논문이있었습니다. 특히이 주제 에 대해 대서양 월간에 소개되었습니다 .
몇 가지 통찰력있는 답변이있는 이 이전 질문 을 참조하십시오 .
질문의 모든 측면에 더 잘 반응하도록 업데이트 하십시오.
당신이 "낚시"를 두려워하지만 실제로 어떤 가설을 공식화해야할지 모른다면, 데이터를 "탐사", "복제"및 "확인"섹션에서 확실히 분리 할 수 있습니다. 원칙적으로 이것은 앞에서 설명한 위험에 대한 노출을 제한해야합니다. 탐사 데이터에서 p 값이 0.05이고 복제 및 확인 데이터에서 유사한 값을 얻는 경우, 잘못 떨어질 위험이 있습니다. 영국 의학 저널 (British Medical Journal)에 "올바른 일"의 좋은 예가 나타났습니다
임신하지 않은 여성의 합병증없는 임신과 관련된 요인의 탐색 및 확인 : 전향 적 코호트 연구, Chappell et al
관련 단락은 다음과 같습니다.
5628 명의 여성 데이터를 세 부분으로 나누었다 : 무작위로 선택된 호주와 뉴질랜드 여성의 3 분의 2의 탐색 데이터 셋 (n = 2129); 호주 및 뉴질랜드 출신 여성의 나머지 3 분의 1의 국소 복제 데이터 세트 (n = 1067); 영국과 아일랜드에서 온 2432 명의 유럽 여성에 대한 외부의 지리적으로 구별되는 확인 데이터 세트.
Altman 등은 "예후 및 예후 연구 : 예후 모델 검증"이라는 제목 의 논문을 조금 더 살펴보면 훨씬 더 깊이 들어가고이를 피할 수있는 방법을 제안합니다. 이 오류. 기사의 "주요 점":
검증되지 않은 모델은 임상 실습에 사용하지 않아야합니다. 예후 모델을 검증 할 때는 교정 및 차별을 평가해야합니다. 모델을 개발하는 데 사용 된 데이터와 다른 데이터, 바람직하게는 다른 센터의 환자와 다른 데이터에 대한 검증을 수행해야합니다. 개발 방법의 결함으로 인해 또는 새 샘플이 원본과 너무 다르기 때문에
특히 다른 출처의 데이터를 사용하여 유효성 검사를 수행해야한다는 제안에주의하십시오. 즉, 데이터를 임의로 하위 집합으로 분할하는 것만으로는 충분하지 않지만 한 세트의 세트에서 "학습"을 입증 할 수있는 방법을 수행해야합니다. 실험 세트는 다른 실험 세트의 데이터에 적용될 수 있습니다. 이 수치는 더 높지만 설정에서 체계적인 편견이 독립적으로 확인할 수없는 "결과"를 생성 할 위험을 더욱 줄입니다.
매우 중요한 주제입니다. 질문 해 주셔서 감사합니다!