우리는 p-hacking에 대해 얼마나 알고 있습니까?


94

p- 해킹 ( "데이터 준설" , "스누핑"또는 "낚시")이라는 문구 는 결과적으로 인위적으로 통계적으로 유의미한 다양한 종류의 통계적 과실을 말합니다. "더 중요한"결과를 얻는 방법에는 여러 가지가 있습니다.

  • 패턴이 발견 된 데이터의 "흥미로운"부분 집합 만을 분석하는 것 ;
  • 다중 테스트 , 특히 사후 테스트에 적합하게 조정하지 못하고 수행되지 않은 테스트를보고하지 않은 경우;
  • 동일한 가설에 대한 서로 다른 테스트를 시도하는 것 , 예를 들어 모수 적 테스트와 비모수 적 테스트 모두 ( 이 스레드에서 이에 대한 설명이 있음 ) 가장 중요한 것만보고합니다.
  • 원하는 결과가 얻어 질 때까지 데이터 포인트의 포함 / 제외로 실험 . 한 가지 기회는 "데이터 정리 이상치", 그러나 모호한 정의를 적용 할 때 (예 : "선진국"에 대한 계량 경제학 연구에서, 다른 정의로 ​​인해 다른 국가 세트를 산출 함) 또는 질적 포함 기준 (예 : 메타 분석에서) , 특정 연구의 방법론이 포함하기에 충분히 견실한지 여부는 매우 균형 잡힌 주장 일 수있다.
  • 앞의 예제는 선택적 중지 와 관련이 있습니다 . 즉, 데이터 세트를 분석하고 지금까지 수집 된 데이터에 따라 더 많은 데이터를 수집할지 여부를 결정합니다 ( "이것은 거의 중요합니다. 세 명의 학생을 더 측정하겠습니다!"). 분석에서;
  • 모델 적합 동안의 실험 , 특히 공변량은 포함 할뿐만 아니라 데이터 변환 / 기능적 형태에 관한 것이다.

따라서 우리는 p- 해킹이 가능하다는 것을 알고 있습니다. 그것은 종종 " p- 값의 위험" 중 하나로 나열되며 여기에서 Cross Validated에 대해 논의 된 통계적 중요성에 대한 ASA 보고서에서 언급 되었으므로 우리는 그것이 나쁜 것임을 알고 있습니다. 일부 모호한 동기와 (특히 학술 출판 경쟁에서) 비생산적인 인센티브가 명백하지만, 의도적 인 과실이나 단순한 무지 여부에 관계없이 왜 그렇게했는지 파악하기가 어렵다고 생각합니다 . 단계적 회귀 분석에서 p- 값을 보고하는 사람 (단계별 절차가 "좋은 모델을 생성 함"을 발견했지만 의도 된 p를 인식하지 못하기 때문에)-values는 후자의 캠프에) 무효화 된,하지만 효과는 여전히 P는 위의 내 총알 포인트의 마지막에서 -hacking.

예를 들어 Head et al (2015)p- hacking이 "밖으로" 있다는 증거가 있지만 과학 문헌을 감염시키는 증거를 찾고 있지만 증거의 현재 상태는 무엇입니까? Head et al이 취한 접근 방식이 논쟁의 여지가없는 것은 아니라는 점을 알고 있습니다. 따라서 문헌의 현재 상태 또는 학계의 일반적인 사고는 흥미로울 것입니다. 예를 들어 다음에 대한 아이디어가 있습니까?

  • 얼마나 널리 퍼져 있으며 출판 편향 과 그 발생을 어느 정도까지 구별 할 수 있습니까? (이 구별은 의미가 있는가?)
  • 경계 에서 그 효과가 특히 심각 합니까? 예를 들어 에서 비슷한 효과가 보입니까 , 아니면 모든 p- 값 범위에 영향이 있습니까?p 0.01p0.05p0.01
  • p- 해킹의 패턴 은 학문 분야마다 다릅니 까?
  • p- 해킹 의 메커니즘 중 일부 (위의 글 머리 기호에 나열된 메커니즘 )가 가장 일반적이라는 것을 알고 있습니까? 어떤 형태는 다른 형태보다 더 잘 감지되지 않기 때문에 다른 형태보다 탐지하기 어려운 것으로 입증 되었습니까?

참고 문헌

헤드, ML, Holman, L., Lanfear, R., Kahn, AT, & Jennions, MD (2015). 과학에서 p- hacking 의 범위와 결과 . PLoS Biol , 13 (3), e1002106.


6
마지막 질문은 연구에 대한 좋은 아이디어입니다. 연구자 그룹에 원시 데이터를 제공하여 다른 분야를 형성하고 SPSS (또는 사용하는 모든 용도)에 장비를 배치 한 다음보다 중요한 결과를 얻기 위해 서로 경쟁하면서 수행중인 작업을 기록합니다. .
Tim

1
kaggle 제출 기록을 사용하여 문제가 발생했다는 것을 주제없이 알 수 있습니다. 그들은 출판하지는 않지만 가능한 한 매직 넘버를 맞추기 위해 노력하고 있습니다.
EngrStudent

1
교차 검증 된 p- 해킹의 간단한 시뮬레이션 예제 모음 (예 : 커뮤니티 위키)이 있습니까? 시뮬레이션 된 연구원이 더 많은 데이터를 수집하고 회귀 사양을 사용한 실험 등을 통해 "마지막으로 중요한"결과에 반응하는 장난감 사례를 상상하고 있습니다.
Adrian

2
@Adrian CV는 단지 Q & A 사이트이며 데이터 나 코드를 보유하지 않으며 숨겨진 저장소가 없습니다. 답변에서 찾은 모든 것은 CC 라이센스하에있는 것입니다. :) 질문은 그러한 예제를 수집하는 것에 대해 묻고있는 것 같습니다.
Tim

1
@Tim 물론 숨겨진 코드 저장소는 상상하지 못했습니다. 응답에 포함 된 코드 스 니펫입니다. 예를 들어, 누군가 "p-hacking이란 무엇입니까?"라고 물을 수 있고 누군가 장난감 R 시뮬레이션을 답에 포함시킬 수 있습니다. 코드 예제로 현재 질문에 응답하는 것이 적절합니까? "우리가 얼마나 알고 있는지"는 매우 광범위한 질문입니다.
Adrian

답변:


76

행정상 개요 : "P-해킹은"광범위하게 이해하는 경우 겔만의 포크 (fork) 경로, 그것이 얼마나 유행에 대한 대답은 거의 보편적 인 것입니다.


p

이 문제를 때때로 "p-hacking"또는 "연구자 자유도"라고합니다 (Simmons, Nelson, Simonsohn, 2011). 최근 기사에서 우리는“낚시 원정 [...]”에 대해 이야기했습니다. 그러나 우리는“낚시”라는 용어가 유감 스럽다고 느끼기 시작했습니다. 이는 비교 후 비교를 시도하는 연구원의 이미지를 불러 일으켜 물고기가 걸리기 전까지 호수에 줄을 반복적으로 던지도록합니다. 우리는 연구원들이 정기적으로 그렇게 생각할 이유가 없습니다. 실제 사례는 연구자들이 가정과 데이터를 감안할 때 합리적인 분석을 수행 할 수 있지만 데이터가 다르게 밝혀지면 해당 환경에서 합리적인 다른 분석을 수행 할 수 있다고 생각합니다.

우리는 두 가지 이유로 “낚시”와“p- 해킹” (그리고“연구자 자유도”) 이라는 용어의 확산을 유감스럽게 생각합니다 . 첫째, 그러한 용어가 연구를 설명하는 데 사용될 때 연구자들이 잘못 이해하는 함의가 있습니다 단일 데이터 세트에 대해 많은 다른 분석을 의식적으로 시도하고있었습니다. 둘째, 그것은 많은 다른 분석을 시도하지 않았다는 것을 알고있는 연구자들이 그들이 연구자 자유도의 문제에 강하게 영향을받지 않는다고 잘못 생각할 수 있기 때문입니다. [...] 여기서 중요한 점은 연구원이 낚시에 대한 의식적인 절차를 수행하거나 여러 p- 값을 조사하지 않고도 데이터에 대한 세부 사항이 데이터에 매우 영향을 미치는 데이터 분석의 의미에서 여러 잠재적 비교를 할 수 있다는 것입니다. .

그래서 : Gelman은 p-hacking 이라는 용어를 좋아하지 않습니다. 왜냐하면 그것은 연구가 활발히 속이는 것을 암시하기 때문입니다. 연구원들이 데이터를 조사한 후, 즉 탐색 적 분석을 수행 한 후 수행 /보고 할 테스트를 선택하기 때문에 문제가 발생할 수 있습니다.

p

"P-해킹은"광범위하게 이해 될 것이다 그래서 경우 겔만의 포크 (fork) 경로, 그것이 얼마나 유행에 대한 대답은 거의 보편적 인 것입니다.

염두에 두어야 할 유일한 예외는 심리학에서 완전히 사전 등록 된 복제 연구 또는 완전히 사전 등록 된 의료 시험입니다.

구체적인 증거

흥미롭게도 일부 사람들은 많은 사람들이 일종의 해킹을 인정한다는 사실을 발견하기 위해 연구원들을 조사했습니다 ( John et al. 2012, 진실성에 대한 인센티브로 의심스러운 연구 관행의 유병률 측정 ) :

존 외

그 외에도 모든 사람들은 심리학에서 소위 "복제 위기"에 대해 들었습니다. 최고의 심리학 저널에 발표 된 최근 연구의 절반 이상이 복제되지 않습니다 ( Nosek et al. 2015, 심리학의 재현성 추정 ). (이 연구는 최근에 있기 때문에, 다시 모든 블로그를 통해하고있다 과학의 2016년 3월 문제 도 Nosek 등으로 응답 Nosek 등을 반박하려고 시도하는 코멘트를 발표했다.과. 논의는 다른 곳에서 계속 볼 수 앤드류 겔만으로 게시물을 하고, RetractionWatch 포스트 그는에. 링크는 정중하게, 비판은 설득력이있다 넣어합니다.)

2018 년 11 월 업데이트 : Kaplan and Irvin, 2017, 대규모 NHLBI 임상 시험의 Null 영향 가능성이 시간이 지남에 따라 증가함에 따라 사전 등록이 필요한 후 null 결과를보고하는 임상 시험의 비율이 43 %에서 92 %로 증가한 것으로 나타났습니다.

여기에 이미지 설명을 입력하십시오


P

Head et al. 2015 년

Head et al.에 대해 들어 본 적이 없습니다 . 전에 공부했지만 이제 주변 문학을 살펴 보는 데 시간을 보냈습니다. 또한 원시 데이터를 간단히 살펴 보았습니다 .

p=ap<a00.06

문헌에서 p- 값의 분포

0.0001pp(0.045,0.5)(0.04,0.045)p

p=0.05p=0.048p=0.052p0.05

그리고 그 외에는 효과가 작습니다 .

p0.05

p

p=0.04p=0.05p

분포p

ptFχ2

Hartgerink PeerJ 종이

Krawczyk 2015 는 PLoS One에서 매우 유사한 접근법을 사용합니다 . PLoS One 은 최고 실험 심리학 저널에서 135k 을 추출 합니다. 분포가보고 된 (왼쪽) 및 재 계산 된 (오른쪽) 찾는 방법은 다음과 같습니다 .pp

크로 치키

그 차이는 놀랍습니다. 왼쪽 막대 그래프는 주위에서 진행되는 이상한 것들을 보여 주지만 오른쪽에는 사라졌습니다. 이것은이 이상한 것들이 hacking이 아니라 값을보고하는 사람들의 선호에 의한 것임을 의미합니다.p=0.05p0.05p

Mascicampo와 Lalande

0.05 미만 의 과도하게 관측 된 것을 처음으로 관찰 한 것은 Masicampo & Lalande 2012 였으며 심리학 분야의 최고 저널 3 개를 살펴 보았습니다 .p

Mascicampo와 Lalande

이 인상적 않지만, Lakens 2015 ( 프리 프레스 게시 된 코멘트에서)이 만 주장 나타납니다 오해 지수에 맞는 인상적인 감사합니다. 0.05 미만의 p- 값에서 결론을 도출하는 문제와 그에 대한 참조에 대해서는 Lakens 2015를 참조하십시오 .

경제학

zp

Brodeur

ppp<0.05


거짓 안심?

ppp0.050.05

Uri Simonsohn은 이것이 "거짓 안심"이라고 주장한다 . 글쎄, 그는 실제로이 논문들을 비판적으로 인용했지만 "대부분의 p- 값은 0.05보다 훨씬 작습니다"라고 말합니다. 그리고 그는 이렇게 말합니다. "그건 안심이되지만 거짓 안심입니다." 그리고 여기에 이유가 있습니다 :

연구자가 결과를 p- 해킹하는지 알고 싶다면 결과와 관련된 p- 값, p- 해킹하려는 p- 값을 먼저 조사해야합니다. 편향되지 않은 표본에는 관심 모집단의 관측치 만 포함해야합니다.

대부분의 논문에보고 된 대부분의 p- 값은 전략적 관심 행동과 관련이 없습니다. 공변량, 조작 확인, 상호 작용 테스트 연구의 주요 영향 등.이를 포함하여 p- 해킹을 과소 평가하고 데이터의 증거 가치를 과대 평가합니다. 모든 p- 값을 분석하면 덜 합리적인 다른 질문을합니다. “연구자들은 자신이 연구 한 것을 해킹합니까?”대신“연구자들은 모든 것을 해킹합니까?”

pppp

시몬 손

p

결론

pp p0.05


4
simply because the researches chose what test to perform/report after looking at the data예; 양날이기 때문에 문제는 피할 수 없습니다. 데이터에 대해 더 나은 방법을 선택하는 경우 해당 특정 샘플을 초과하거나 해당 모집단의 기술 요청 회의에 적합합니까? 아니면-이상치 제거-인구를 속이거나 회복하고 있습니까? 궁극적으로 누가 말할 것인가?
ttnphns

내가 가장 바랐던 답은 아마도 현재 문헌에 대한 간단한 표현 일 뿐이며 Head et al 논문이 최신 사고에 대한 공정한 요약인지에 대한 몇 가지 지침 일 것입니다. 나는이 대답을 전혀 기대하지 않았습니다. 그러나 나는 그것이 훌륭하다고 생각하며 Gelman의 생각과 실용적인 통찰력이 특히 도움이됩니다. 이 질문을했을 때 실제로 @ttnphns와 비슷한 점을 염두에 두었습니다 (아마도 "과적 합"이라는 단어를 포함시키는 것도 고려했습니다).
Silverfish

그럼에도 불구하고 "과학이 실제로 어떻게 작동 하는가"라는 통계적 가정에 대한 불완전한 일치라는 일반적이고 피할 수없는 불쾌감을 제외하고,이 bogeyman "악의적 p- 해커의 어두운 기술"이 실제로 존재하는지 궁금합니다. 그렇다면, 얼마나 멀리 도달하는지. 그것을 장려하기위한 확실한 인센티브가 있습니다.
좀 벌레

2
이 Head et al.에 대해 궁금한 점이 있습니다. 논문 @ @Silverfish, 나는 지금 일하는 대신 Head et al.의 결과를 비판하는 일부 논문을 탐색하고 있으며 이미 원시 데이터를 다운로드했습니다 ... 오 마이.
amoeba

2
+1. 최신 Gelman 블로그 기사 ( andrewgelman.com/2016/03/09/… )는 많은 토대를 다루고 있으며 복제를 시도한 다음 원래 연구 저자 인 retractionwatch.com/에
Wayne

22

깔때기 도표는 메타 분석을 시작한 엄청난 통계 혁신이었습니다. 기본적으로 깔때기 그림은 동일한 그림에서 임상 적 및 통계적 유의성을 보여줍니다. 이상적으로는 깔때기 모양을 형성합니다. 그러나 몇몇 메타 분석은 강력한 바이 모달 형태를 나타내는 깔대기 도표를 만들어 냈으며, 조사관 (또는 출판사)은 널 (null) 인 결과를 선택적으로 보류했습니다. 결과는 작고 전력이 적은 연구가 통계적 의미에 도달하도록 결과를 "장려"하기 위해보다 과감한 방법을 사용했기 때문에 삼각형이 넓어졌습니다. Cochrane Report 팀은 이에 대해 이야기 할 것 입니다.

통계적으로 유의미한 영향이없는 소규모 연구 (그림 10.4.a, 패널 A에 열린 원으로 표시됨)가 게시되지 않은 채로 남아있어 편향이있는 경우, 이로 인해 깔때기 플롯의 비대칭 모양이 나타납니다. 그래프 (패널 B). 이러한 상황에서 메타 분석에서 계산 된 효과는 중재 효과를 과대 평가하는 경향이있다 (Egger 1997a, Villar 1997). 비대칭 성이 뚜렷할수록 편향의 양이 상당 할 가능성이 높습니다.

첫 번째 플롯은 치우침이없는 대칭 플롯을 보여줍니다. 두 번째는보고 편향이있는 경우 비대칭 플롯을 보여줍니다. 세 번째는 일부 소규모 연구 (개방형 원)가 방법 론적 품질이 낮기 때문에 과장된 개입 효과 추정치를 생성하기 때문에 편향이 존재하는 경우 비대칭 플롯을 보여줍니다.

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

나는 대부분의 저자들이 p-hack에 사용하는 방법을 모른다고 생각한다. 서로 다른 제외 기준을 적용하거나 매번 다른 조정 변수를 선택하여 적합한 전체 모델 수를 추적하지 않습니다. 그러나 간단한 프로세스를 지시해야하는 경우 총 모델 수가 맞는 것을보고 싶습니다. 이는 모델을 재실행해야하는 합법적 인 이유가 있다고 말할 수는 없습니다. 예를 들어, 샘플에서 ApoE가 수집되었음을 알지 못한 알츠하이머의 분석을 실행했습니다. 내 얼굴에 계란, 우리는 모델을 reran.


4

2
내 질문의 한 측면은 "p-hacking"과 "publication bias"의 차이점이었습니다.이 대답은 어떤 방식 으로든 두 가지를 con니다. "게시판 편견은 본질적으로 p- 해킹의 한 형태이지만 출판사에 의한 것입니다."
실버 피쉬

1
pp

2
흠. 먼저 출판 바이어스가 p-hacking과 비슷하다고 주장하고 싶었습니다 (유사하게도 @Silverfish가 Q를 어떻게 구성했는지와 비슷합니다). 그러나 원래 생각했던 것보다 경계를 그리는 것이 더 까다 롭다는 것을 깨달았습니다. 젤리 빈 스타일의 다중 비교를 수행하고 중요한 것만보고하는 것 (p-hacking?)은 여러 연구를 수행하는 것과 크게 다른 것만보고하는 것 (정의에 의한 출판 편향)과 크게 다르지 않습니다. 그럼에도 불구하고 p <0.05를 산출 할 때까지 데이터를 마사지한다는 의미에서 p- 해킹은 나에게 충분히 다른 느낌을줍니다.
amoeba

2
pp
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.