p- 해킹 ( "데이터 준설" , "스누핑"또는 "낚시")이라는 문구 는 결과적으로 인위적으로 통계적으로 유의미한 다양한 종류의 통계적 과실을 말합니다. "더 중요한"결과를 얻는 방법에는 여러 가지가 있습니다.
- 패턴이 발견 된 데이터의 "흥미로운"부분 집합 만을 분석하는 것 ;
- 다중 테스트 , 특히 사후 테스트에 적합하게 조정하지 못하고 수행되지 않은 테스트를보고하지 않은 경우;
- 동일한 가설에 대한 서로 다른 테스트를 시도하는 것 , 예를 들어 모수 적 테스트와 비모수 적 테스트 모두 ( 이 스레드에서 이에 대한 설명이 있음 ) 가장 중요한 것만보고합니다.
- 원하는 결과가 얻어 질 때까지 데이터 포인트의 포함 / 제외로 실험 . 한 가지 기회는 "데이터 정리 이상치", 그러나 모호한 정의를 적용 할 때 (예 : "선진국"에 대한 계량 경제학 연구에서, 다른 정의로 인해 다른 국가 세트를 산출 함) 또는 질적 포함 기준 (예 : 메타 분석에서) , 특정 연구의 방법론이 포함하기에 충분히 견실한지 여부는 매우 균형 잡힌 주장 일 수있다.
- 앞의 예제는 선택적 중지 와 관련이 있습니다 . 즉, 데이터 세트를 분석하고 지금까지 수집 된 데이터에 따라 더 많은 데이터를 수집할지 여부를 결정합니다 ( "이것은 거의 중요합니다. 세 명의 학생을 더 측정하겠습니다!"). 분석에서;
- 모델 적합 동안의 실험 , 특히 공변량은 포함 할뿐만 아니라 데이터 변환 / 기능적 형태에 관한 것이다.
따라서 우리는 p- 해킹이 가능하다는 것을 알고 있습니다. 그것은 종종 " p- 값의 위험" 중 하나로 나열되며 여기에서 Cross Validated에 대해 논의 된 통계적 중요성에 대한 ASA 보고서에서 언급 되었으므로 우리는 그것이 나쁜 것임을 알고 있습니다. 일부 모호한 동기와 (특히 학술 출판 경쟁에서) 비생산적인 인센티브가 명백하지만, 의도적 인 과실이나 단순한 무지 여부에 관계없이 왜 그렇게했는지 파악하기가 어렵다고 생각합니다 . 단계적 회귀 분석에서 p- 값을 보고하는 사람 (단계별 절차가 "좋은 모델을 생성 함"을 발견했지만 의도 된 p를 인식하지 못하기 때문에)-values는 후자의 캠프에) 무효화 된,하지만 효과는 여전히 P는 위의 내 총알 포인트의 마지막에서 -hacking.
예를 들어 Head et al (2015) 은 p- hacking이 "밖으로" 있다는 증거가 있지만 과학 문헌을 감염시키는 증거를 찾고 있지만 증거의 현재 상태는 무엇입니까? Head et al이 취한 접근 방식이 논쟁의 여지가없는 것은 아니라는 점을 알고 있습니다. 따라서 문헌의 현재 상태 또는 학계의 일반적인 사고는 흥미로울 것입니다. 예를 들어 다음에 대한 아이디어가 있습니까?
- 얼마나 널리 퍼져 있으며 출판 편향 과 그 발생을 어느 정도까지 구별 할 수 있습니까? (이 구별은 의미가 있는가?)
- 경계 에서 그 효과가 특히 심각 합니까? 예를 들어 에서 비슷한 효과가 보입니까 , 아니면 모든 p- 값 범위에 영향이 있습니까?p ≈ 0.01
- p- 해킹의 패턴 은 학문 분야마다 다릅니 까?
- p- 해킹 의 메커니즘 중 일부 (위의 글 머리 기호에 나열된 메커니즘 )가 가장 일반적이라는 것을 알고 있습니까? 어떤 형태는 다른 형태보다 더 잘 감지되지 않기 때문에 다른 형태보다 탐지하기 어려운 것으로 입증 되었습니까?
참고 문헌
헤드, ML, Holman, L., Lanfear, R., Kahn, AT, & Jennions, MD (2015). 과학에서 p- hacking 의 범위와 결과 . PLoS Biol , 13 (3), e1002106.