p- 값은 본질적으로 쓸모없고 사용하기에 위험합니까?


36

NY Times 의이 기사 " Odds, 지속적으로 업데이트"가 제 관심을 끌었습니다. 간단히 말해서, 그것은

[Bayesian statistics]는 2013 년 해안 경비대가 누락 된 어부 John Aldridge를 찾기 위해 사용한 것과 같은 검색을 포함하여 복잡한 문제에 접근하는 데 특히 유용하다는 것을 증명하고 있습니다 (지금까지 말레이시아 항공 370 호를 찾지 못했습니다). ...... 베이지안 통계는 물리학에서 암 연구, 생태학, 심리학에 이르기까지 모든 것을 휩쓸고 있습니다 ...

이 기사에는 잦은주의 p- 값에 대한 비판도 있습니다.

p- 값이 5 % 미만인 경우 일반적으로 결과는 "통계적으로 유의 한"것으로 간주됩니다. 그러나이 전통에는 위험이 있다고 Columbia의 통계 교수 인 Andrew Gelman은 말했다. 과학자들은 항상 계산을 올바르게 수행했지만 그렇지 않은 경우에도 p- 값이 5 % 인 모든 것을 수용한다는 것은 20 개의 "통계 학적으로 중요한"결과 중 하나가 랜덤 노이즈에 불과하다는 것을 의미한다고 그는 주장했다.

위의 것 외에도 p- 값을 비판하는 가장 유명한 논문은 다음과 같습니다-Regina Nuzzo의 "과학적 방법 : 통계 오류" -재현성 문제와 같이 p- 값 접근 방식으로 제기 된 많은 과학적 문제가 논의되었습니다. p- 값 해킹 등

통계적 유효성의 '골드 표준'인 P 값은 많은 과학자들이 생각하는 것만 큼 신뢰할 수 없습니다. ...... 아마도 최악의 오류는 펜실베이니아 대학의 심리학자 유리 시몬 손 (Uri Simonsohn)과 그의 동료들이 P- 해킹이라는 용어를 대중화 한 일종의 자기기만 일 것이다. 또한 데이터 준설, 스누핑, 낚시, 중요도 추적 및 이중 침지라고도합니다. Simonsohn은 "P 해킹은 무의식적으로도 원하는 결과를 얻을 때까지 여러 가지를 시도하고 있습니다"라고 말합니다. ......“그 결과는 p- 해킹을 통해 얻은 것으로 보이며, 저자는 전체 p- 값이 .05 미만이되도록 조건 중 하나를 삭제했습니다.”그리고“그녀는 p- 해커입니다. 그녀는 데이터를 수집하는 동안 항상 데이터를 모니터링합니다.”

또 다른 것은 플롯 에 대한 의견과 함께 here 에서 다음과 같은 흥미로운 플롯입니다.

효과가 아무리 작더라도 p <.05의 임계 값을 초과하기 위해 데이터를 수집하는 데 항상 많은 노력을 기울일 수 있습니다. 연구하고있는 효과가 존재하지 않는 한 p- 값은 데이터 수집에 얼마나 많은 노력을 기울 였는지 측정합니다.

여기에 이미지 설명을 입력하십시오

위의 모든 질문은 다음과 같습니다.

  1. 두 번째 블록 인용문에서 Andrew Gelman의 주장은 정확히 무엇을 의미합니까? 왜 그는 5 %의 p- 값을 "통계 학적으로 중요한 20 개의 결과 중 하나는 주목하지만 랜덤 노이즈"로 해석 했습니까? p- 값이 하나의 단일 연구에서 추론하는 데 사용되므로 확신이 없습니다. 그의 요점은 여러 테스트와 관련된 것 같습니다.

    업데이트 : 이것에 대해 Andrew Gelman의 블로그를 확인하십시오 : 아니요, 말하지 않았습니다! (@Scortchi, @whuber의 크레딧).

  2. Cp

  3. 보다 신뢰할 수있는 연구 결과로 이어질 수있는 통계 분석에 p- 값 사용에 대한 실질적인 지침이 있습니까?
  4. 일부 통계 옹호자로서 베이지안 모델링 프레임 워크가 추구하는 더 좋은 방법일까요? 특히 베이지안 접근 방식이 잘못된 문제를 해결하거나 데이터 문제를 조작 할 가능성이 더 높습니까? 이전은 베이지안 접근에 매우 주관적이기 때문에 나는 여기에서도 확신하지 못한다. 베이지안 접근 방식이 잦은주의 p- 값보다 우수하거나 적어도 특정 경우에 더 우수하다는 실용적이고 잘 알려진 연구가 있습니까?

    업데이트 : 베이지안 접근 방식이 잦은주의 p- 값 접근 방식보다 신뢰할 수있는 경우가 있는지에 특히 관심이 있습니다. "신뢰할 수 있음"은 베이지안 접근 방식이 원하는 결과를 위해 데이터를 조작 할 가능성이 적다는 것을 의미합니다. 어떤 제안?


2015 년 6 월 9 일 업데이트

방금 뉴스를 보았고 토론을 위해 여기에 두는 것이 좋을 것이라고 생각했습니다.

심리학 저널은 P 값을 금지

논란의 여지가있는 통계 테스트는 적어도 하나의 저널에서 마침내 그 목적을 달성했습니다. 이달 초, 기본 및 응용 사회 심리학 (BASP)의 편집자들은 통계가 품질이 낮은 연구를 지원하는 데 너무 자주 사용 되었기 때문에 저널은 더 이상 P 값을 포함하는 논문을 출판하지 않을 것이라고 발표했습니다.

최근 논문과 함께 Nature의 "변덕 P 값은 재현 할 수없는 결과를 생성합니다"라는 P 값에 관한 것입니다.

2016 년 5 월 8 일 업데이트

3 월에 미국 통계 협회 (ASA)는 통계적 중요성과 p- 값에 대한 진술을 발표했다. "... ASA 선언은 '포스트 p <0.05 시대'에 대한 연구를 추진하기위한 것이다."

이 진술에는 p- 값의 오용을 다루는 6 가지 원칙이 포함되어 있습니다.

  1. P- 값은 데이터가 지정된 통계 모델과 얼마나 호환되지 않는지를 나타낼 수 있습니다.
  2. P- 값은 연구 된 가설이 참일 확률 또는 무작위 확률만으로 데이터가 생성 될 확률을 측정하지 않습니다.
  3. 과학적 결론과 비즈니스 또는 정책 결정은 p- 값이 특정 임계 값을 통과하는지 여부에만 근거해서는 안됩니다.
  4. 적절한 추론은 완전한보고와 투명성을 요구합니다.
  5. p- 값 또는 통계적 유의성은 효과의 크기 나 결과의 중요성을 측정하지 않습니다.
  6. p- 값 자체만으로는 모형 또는 가설에 대한 증거를 제대로 측정 할 수 없습니다.

세부 사항 : "p- 값에 대한 ASA의 진술 : 문맥, 프로세스 및 목적" .


11
0.050.05


4
잘 찾아라, @Scortchi! 기록적으로 (링크가 잘못 될 경우) Gelman은 NY Times 특성화를 강력히 거부하고 (매우 신중하지만) "p- 값이 5 % 인 모든 항목을 수락하면 가짜 결과가 도출 될 수 있습니다. 통계적으로 유의미한 "데이터 패턴은 인구의 해당 패턴을 반영하지 않습니다. 시간의 5 % 이상입니다."
whuber

3
"연구중인 효과가 존재하지 않는 한"은 p 값과 관련된 연구의 요점입니다. 연구중인 효과가 실제로 존재하는지, 또는 수집 한 데이터는 임의의 확률로 인한 것입니다. 샘플 크기가 증가함에 따라 p 값을 낮추는 것은 수학적으로 완전히 건전하며 실제로 유일한 옵션입니다. 당신은 결코 p- 값을 "해킹"하지 않습니다. 직관적 인 관점에서 볼 때 데이터 수집에 더 많은 노력을 기울이면 데이터에서 얻은 결론에 대한 확신이 높아질 것입니다.
David Webb

1
@DavidWebb 동의합니다. 효과 크기가 작 으면 괜찮으며 더 많은 데이터로 효과가 얼마나 크거나 작은 지 말하기가 더 쉽습니다. 더 많은 데이터를 얻을 수 있다면해야합니다.
Desty

답변:


25

다음은 몇 가지 생각입니다.

  1. 80%100/118.7584%
  2. p
  3. p
  4. 나는 베이지안 방법을 사용하는 것을 교리 적으로 반대하지는 않지만 그들이이 문제를 해결할 것이라고는 믿지 않습니다. 예를 들어 신뢰할 수있는 간격에 더 이상 거부하려는 값이 포함되지 않을 때까지 데이터를 계속 수집 할 수 있습니다. 따라서 '신뢰할 수있는 간격 해킹'이 있습니다. 내가 알다시피, 문제는 많은 실무자들이 사용하는 통계 분석에 본질적으로 관심이 없으므로 생각하지 않고 기계적인 방식으로 필요한 방법을 사용한다는 것입니다. 내 관점에 대한 자세한 내용은 다음에 대한 내 대답을 읽는 데 도움이 될 수 있습니다 . 유의성 검정의 가설로서의 효과 크기 .

10
(+1) 신뢰할 수있는 간격을 해킹하는 쉬운 방법은 바로 앞에 :-)를 적용하는 것입니다. 물론 유능한 개업의는이를 수행하지 않을 것입니다 .Gelman은 민감도 평가, 정보가없는 과우 선자 등을 강조하지만, 가설 검정의 유능한 사용자는 p- 값 해킹을 수행하지 않습니다. 반면, 베이지안 분석 에서는 p- 값 해킹과 관련 될 수있는 모든 문서화되지 않은 분석 과 비교하여 이전의 내용이 명확하게 공개되어 있다고 가정하고 수행중인 작업을 숨기는 것이 더 어려울 수 있습니다.
whuber

1
@ whuber, 그것은 사실이지만, 우리는 이전의 부적절 성이나 주관성과 관련된 문제를 따로 둘 수 있다고 생각합니다. 실제 효과가 정확히 0이 아닌 경우 충분한 데이터가있는 p는 <.05 (cf, 마지막 따옴표)와 마찬가지로 신뢰할 수있는 간격에 0이 포함되지 않으므로 얻을 때까지 계속 데이터를 수집 할 수 있습니다 이전과 상관없이 원하는 결과.
gung-복직 모니카

4
좋은 지적입니다. 100,000 개 제품 중 10 개가 고장이 없음을 관찰 한 후 10,000 개 제품의 고장을 예측하는 것에 대한 최근의 질문이 떠 오릅니다. 실패는 매우 드물기 때문에 대답은 이전에 매우 민감합니다. 이것은 "규칙을 증명하는"예외적 인 상황 일 수 있습니다. 실제로 원하는 결과를 얻기 위해 충분한 데이터를 수집하는 것이 불가능할 수 있음을 보여줍니다. 그것은 바로 어떤 클라이언트가 통계학자가 원하는 결과를 얻기 위해 "마술을하도록"간청하기 시작한 때입니다! 아마 많은 독자들이 전에 그 압력을 느꼈을 것입니다.
whuber

1
@gung, 실제 클리닉 시험에서, 더 많은 실험 대상자를 모집하기 위해 항상 다른 단계에서 정지 기준이 있습니다. 그런 의미에서 베이지안 접근 방식이 신뢰할만한 간격을 조작 할 가능성이 적어 지므로 연구 결론은 어떻습니까?
Aaron Zeng

2
@AaronZeng, 명시 적 중지 기준이 Frequentist & Bayesian 관점에 동일하게 적용되는 것 같습니다. 나는 여기에 순 이점 / 단점을 보지 못합니다.
gung-Monica Monica 복원

8

필자에게 p-hacking 논란에 대한 가장 흥미로운 점 중 하나는 조셉 칼 데인 (Joseph Kaldane)이 법의학 통계에 관한 JASA 기사에서 언급 한 것처럼 p <= 0.05의 전체 역사가 통계적 유의성에 대한 "푸른 달에 한 번"표준이라는 것입니다. 90 년대로 거슬러 올라가면 통계 이론은 전혀 없습니다. RA Fisher로 시작한 컨벤션, 간단한 휴리스틱 및 경험 법칙으로 현재의 "문의되지 않은"상태로 통일 또는 봉헌되었습니다. 베이지안이든 아니든,이 측정 기준에 도전하거나 적어도 회의론을받을 가치가 있다고 생각하기에는 시간이 오래 걸렸다.

Gelman의 요점에 대한 나의 해석은 잘 알려진 바와 같이, 동료 검토 프로세스는 긍정적 인 통계적 중요성을 보상하고 그 논문을 출판하지 않음으로써 중요하지 않은 결과를 처벌한다는 것입니다. 이것은 중요하지 않은 결과를 출판하는 것이 주어진 영역에 대한 사고와 이론에 잠재적으로 큰 영향을 미칠지 여부에 관계없이 적용됩니다. Gelman, Simonshohn 등은 초자연적, 사회적, 심리적 연구에서 우스꽝 스럽지만 통계적으로 유의미한 결과의 예를 들음으로써 동료 검토 및 출판 된 연구에서 0.05의 유의 수준 남용을 반복해서 지적했습니다. 가장 심각한 것 중 하나는 임산부가 빨간 드레스를 입을 가능성이 더 높다는 통계 학적으로 중요한 발견이었습니다. Gelman은 통계적 결과에 대한 논리적 도전이 없을 경우,잠재적으로 무의미한 설명. 여기서 그는 평신도들 사이에서 토론을 진전시키기 위해 거의 또는 전혀 수행하지 않는 지나치게 기술적이고 애매한 주장으로 산업의 산업적 위험 을 언급하고 있습니다.

이것은 게리 킹이 양적 정치 과학자들 (그리고 모든 쿼트들)을 실질적으로 구걸하여 "이 결과는 ap <= 0.05 수준에서 유의미했다"는 것과 같은보다 실질적인 해석으로 나아가는 것과 같은 기계적이고 기술적 인 보도를 막기 위해 적극적으로 간청하는 시점이다. . 그에 의해 논문에서 인용 한 것이 있습니다.

(1) 가장 실질적인 관심의 양에 대한 수치 적으로 정확한 추정치를 전달하고, (2) 이러한 추정치에 대한 합리적인 불확실성 측정을 포함하며, (3) 이해하기위한 전문 지식이 거의 필요하지 않습니다. 다음과 같은 간단한 진술은 우리의 기준을 만족시킵니다. '다른 것들과 동일하다면, 추가 교육 기간이 추가되면 연간 수입이 평균 1,500 달러 증가 할 것입니다. 모든 똑똑한 고등학생은 통계 모델이 아무리 정교하고 컴퓨터가 그것을 생성하는 데 사용하는 강력 함에도 불구하고 그 문장을 이해할 것입니다.

King의 요점은 매우 잘 이해되어 있으며 논쟁의 방향을 제시합니다.

통계 분석을 최대한 활용 : 해석 및 프리젠 테이션 개선 , King, Tomz and Wittenberg, 2002, Am Sour of Poli Sci .


2
+1 스레드에 대한 읽기 쉽고 유익하며 신중한 기여에 감사합니다.
whuber

@ whuber 친절한 말에 감사드립니다. 시간은 다른 참가자가 동의하는지 여부를 알려줍니다.
Mike Hunter

2
필자는기만을 당할 수도 있지만 적극적 유권자들 중 일부 (대부분은 아니더라도)는 동의 나 불일치를 근거로 투표하지 않고 게시물이 원래 질문에 명확하고 권위있는 방식으로 응답하는지 여부에 대해 생각하고 싶습니다. . 결국, upvote 아이콘 위의 풍선 텍스트는 "이 답변은 유용합니다."가 아니라 "이 사람과 동의합니다"라고 표시됩니다. (이것은 우리의 메타 사이트에 투표와 혼동되지 않는 계약의 의미도있다.)이 인상에 대한 몇 가지 증거가 많은에 의해 제공되는 스포츠맨 배지를 수여했다.
whuber

@Whuber 당신이 지적한 뉘앙스가 정식으로 언급됩니다.
마이크 헌터

@whuber이 스레드는 단어의 내 사용의 원천 착각 저번에 우리의 채팅.
Mike Hunter

5

통찰력있는 모든 의견과 답변을 읽은 후 질문 3에 대한 나의 생각 중 일부는 다음과 같습니다.

p- 값 해킹을 피하기위한 통계 분석의 실질적인 지침 중 하나는 과학적으로 (또는 생물학적으로, 임상 적으로 등) 유의하고 의미있는 효과 크기를 보는 것입니다.

θ

H0:θ=0vs.Ha:θ0,
H0:θ<δvs.Ha:θδ,
δ

또한, 너무 큰 샘플 크기를 사용하여 효과를 감지하지 않으려면 필요한 샘플 크기도 고려해야합니다. 즉, 실험에 사용되는 최대 샘플 크기를 제한해야합니다.

요약하면

  1. 유의미한 효과 크기가 유의성을 선언하려면 임계 값을 미리 정의해야합니다.
  2. 의미있는 효과 크기가 얼마나 감지 가능한지 정량화하려면 실험에 사용 된 샘플 크기에 대한 임계 값을 미리 정의해야합니다.

위와 같이, 우리는 거대한 표본 크기가 주장하는 사소한 "유의적인"효과를 피할 수 있습니다.


[2015 년 6 월 9 일 업데이트]

질문 3과 관련 하여, 질문 부분에서 언급 한 바와 같이, "변덕 P 값은 재현 할 수없는 결과를 생성합니다"라는 최근의 논문 에 근거한 몇 가지 제안 있습니다.

  1. 보다 유익한 정보는 차이가 얼마나 큰지 또는 관계 또는 연관성이 얼마나 강한 지에 대한 정확한 질문에 답변하기 때문에 효과 크기 추정치 및 정확도, 즉 95 % 신뢰 구간을보고합니다.
  2. 효과 크기 추정치 및 95 % CI를 특정 과학 연구 / 질문의 맥락에두고 이들 질문에 대한 답변의 관련성에 초점을 맞추고 주근깨 P 값을 할인하십시오.
  3. 전력 분석을 " 정밀도 계획 "으로 바꾸어 정의 된 정밀도에 도달하기 위해 효과 크기를 추정하는 데 필요한 샘플 크기를 결정하십시오.

[최종 업데이트 6/9/2015]


4
H0:θ=δ

@AndyW, 댓글 주셔서 감사합니다. 이에 따라 답변이 변경되었습니다. 더 나은 옵션이 될까요?
Aaron Zeng

2
해당 자연 기사에 대한 참조로 +1 p- 값에 대한 (예고되지 않은) 베이지안 해석과 같은 놀라운 잘못된 정보가 포함되어 있습니다. P <0.05의 확률은 56 %에 불과한 반면, 0 ~ 0.6의 넓은 범위 (90 % 예측 간격) 사이에 있습니다. " 저자가 어떤 사전 배포를 가정하고 있으며, 왜 관련이 있는지 궁금합니다.
whuber

@AndyW와 아론 쩡은 더 나은 결과를 결합하는 것입니다 모두 차이에 대한 테스트 동등성에 대한 테스트합니다. 그렇게하면 관련된 효과 크기와 통계적 힘을 모두 결론에 명시 적으로 배치 할 수 있습니다 (관련성 테스트 섹션 참조).
Alexis

3

P(D|H0)αH0H0

  1. 1/20 결과는 null을 거부 할 수 있음을 의미합니다. 과학이 단일 실험에 대한 결론이라면 결론은 방어적일 것입니다. 그렇지 않으면, 실험이 반복 될 수 있다면, 19/20이 기각되지 않을 것임을 암시합니다. 이야기의 교훈은 실험이 반복 가능해야한다는 것입니다.

  2. 과학은 "객관성"에 기초한 전통이므로 "객관적 확률"은 자연스럽게 매력적입니다. 실험은 종종 블록 설계와 무작위 배정을 사용하여 연구 외부의 요인을 제어하는 ​​높은 수준의 제어를 입증한다고 가정합니다. 따라서 연구 대상을 제외한 다른 모든 요인을 통제해야하므로 무작위 비교는 의미가 있습니다. 이러한 기술은 과학으로 이식되기 전에 농업 및 산업에서 매우 성공적이었습니다.

  3. 정보 부족이 실제로 문제인지 확실하지 않습니다. 수학이 아닌 과학 분야의 많은 사람들에게 통계는 틱 박스 일뿐입니다.

  4. 두 프레임 워크를 하나로 묶는 의사 결정 이론에 대한 일반적인 내용을 제안합니다. 그것은 당신이 가진 많은 정보를 사용하는 것입니다. 빈번한 통계는 모형의 모수에 고정 분포에서 알 수없는 값이 있다고 가정합니다. 베이지안은 모형의 모수가 우리가 아는 것에 의해 조절 된 분포에서 나온다고 가정합니다. 정확한 사후 정보로 업데이트하기에 충분한 사전 정보를 형성하기에 충분한 정보가 있다면 매우 좋습니다. 그렇지 않으면 결과가 더 나빠질 수 있습니다.


1

통계 테스트 결과의 재현성

이것은 통계 테스트를 기반으로 의사 결정의 재현성을 평가하기위한 짧고 간단한 연습입니다.

H1과 H2를 포함하는 대립 가설 세트가있는 귀무 가설 H0을 고려하십시오. H1이 참인 경우 통계 가설 검정 절차를 유의 수준 0.05로 검정력이 0.8이되도록 설정합니다. 또한 H2의 전력이 0.5라고 가정하십시오. 테스트 결과의 재현성을 평가하기 위해 테스트 절차를 두 번 실행하는 실험이 고려됩니다. HO가 참인 상황에서 시작하여 공동 실험의 결과에 대한 확률이 표 1에 표시됩니다. 결정을 재현 할 수없는 확률은 0.095입니다.

표 1. H0이 참인 경우의 빈도

Frequency.of.decisionReject.H0Retain.H0Reject.H00.00250.0475Retain.H00.04750.9025

자연 상태가 변하면 주파수가 변합니다. H1이 참이라고 가정하면 0.8의 거듭 제곱으로 설계된대로 H0을 기각 할 수 있습니다. 공동 실험의 다른 결과에 대한 결과 빈도가 표 2에 표시됩니다. 결정을 재현 할 수없는 확률은 0.32입니다.

표 2. H1이 참인 경우의 빈도

Frequency.of.decisionReject.H0Retain.H0Reject.H00.640.16Retain.H00.160.04

H2가 true라고 가정하면 H0은 0.5의 확률로 거부됩니다. 공동 실험의 다른 결과에 대한 결과 빈도는 표 3에 표시됩니다. 결정을 재현 할 수없는 확률은 0.5입니다.

표 3. H2가 참인 경우의 빈도

Frequency.of.decisionReject.H0Retain.H0Reject.H00.250.25Retain.H00.250.25

검정 절차는 확률이 0.05이고 유형 II 오류를 제한하여 (유형 가설의 기각은 기각) 유형 I 오류를 제어하기 위해 설계되었습니다. ~ 0.2. 두 경우 모두, H0 또는 H1이 참인 것으로 가정 할 때, 동일한 실험이 두 번 반복되는 경우, 이는 "반복 불가능", "모순"결정의 무시할 수없는 빈도 (각각 0.095 및 0.32)로 이어집니다. 실제 자연 상태가 실험 설계에 사용 된 귀무 가설과 대립 가설 사이에있는 경우 "반복 불가능", "모순"결정에 대해 최대 0.5 빈도로 상황이 악화됩니다.

유형 1 오류가보다 엄격하게 제어되거나 실제 자연 상태가 널에서 멀리 떨어져있는 경우 상황이 더 나아질 수 있습니다. 이로 인해 1에 가까운 널을 거부 할 수 있습니다.

따라서 더 재현 가능한 결정을 원할 경우 유의 수준과 검정력을 높이십시오. 별로 놀랍지 않은 ...


(+1) 그러나 실험 전에 p- 값 을 5 %로 설정할 수 없습니다 . "의의 수준"을 의미한다고 생각하십시오.
Scortchi-Monica Monica 복원

감사합니다. 마지막 문장에서 같은 것 : "의의 수준을 낮추고 힘을 증가 시키십시오"
Scortchi-Reinstate Monica

p 값의 가장 큰 문제는 사람들이 그것들을 실질적인 중요성과 혼동한다는 것입니다. 따라서 p <.05이면 발견 된 효과 크기가 중요 할만큼 충분히 크다는 것을 의미합니다. 나는 p 값을 생성함으로써 [실질적으로] 중요한 효과를 생성하도록 직장에서 요청 받았다.
user54285
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.