'p- 값'의 정확한 값이 의미가 없습니까?


31

필자는 2009 년 통계 학자와 논의하여 p- 값의 정확한 값은 관련이 없다고 언급했습니다. 중요한 것은 중요한지 여부는 중요합니다. 즉, 한 결과가 다른 결과보다 더 중요 할 수는 없습니다. 예를 들어, 같은 모집단 출신이거나 그렇지 않은 표본.

나는 이것에 대한 몇 가지 자질을 가지고 있지만 아마도 이념을 이해할 수 있습니다.

  1. 5 % 임계 값은 임의적입니다. 즉, p = 0.051은 유의하지 않으며 p = 0.049는 실제로는 하나의 결과가 중요하고 다른 결과는 중요하지 않더라도 관측 또는 실험의 결론을 변경해서는 안됩니다.

    내가 지금 이것을 제기하는 이유는 생물 정보학 석사를 공부하고 있기 때문에 현장의 사람들과 이야기를 나눈 후 모든 통계 세트에 대해 정확한 p- 값을 얻는 결정적인 추진력이있는 것 같습니다. 예를 들어, p <1.9 × 10 -12 의 p- 값을 '달성'하면 결과가 얼마나 중요한지 보여주고 싶어하며이 결과는 매우 유익합니다. 이 문제는 다음과 같은 질문으로 설명되었습니다. 왜 2.2e-16보다 작은 p- 값을 얻을 수 없습니까? 그들은 우연히도 1 조분의 1보다 훨씬 적다는 것을 나타내는 값을 기록하려고합니다. 그러나 나는이 결과가 10 억에서 1이 아니라 1 조에서 1 미만으로 발생한다는 것을 보여주는 차이가 거의 없다고 본다.

  2. p <0.01은 이것이 일어날 확률이 1 % 미만인 것을 보여 주지만, p <0.001은 이와 같은 결과가 앞에서 언급 한 p- 값보다 더 가능성이 낮음을 나타내지 만 결론이 완전히 도출되어야하는 경우 다른? 결국 그들은 모두 중요한 p- 값입니다. 정확한 p- 값을 기록하기를 원하는 유일한 방법은 Bonferroni 보정을하는 동안 비교 횟수로 인해 임계 값이 변경되어 I 형 오류가 줄어드는 것입니다. 그럼에도 불구하고 왜 임계 값보다 12 차 작은 p- 값을 보여주고 싶습니까?

  3. 그리고 Bonferroni 수정 자체도 약간 임의적이지 않습니까? 처음에는 수정이 매우 보수적 인 것으로 보이므로 관찰자가 다중 비교에 사용할 수있는 유의 수준에 액세스하도록 선택할 수있는 다른 수정이 있습니다. 그러나이 때문에 연구원이 어떤 통계를 사용하고자하는지에 따라 본질적으로 중요한 변수가되는 것은 아닙니다. 통계가 그렇게 해석되어야합니까?

결론적으로 통계가 덜 주관적이지 않아야한다 (주관적이어야 할 필요성은 다변량 시스템의 결과라고 생각하지만) 궁극적으로 나는 약간의 설명을 원한다. 어떤 것이 다른 것보다 더 중요 할 수 있는가? 정확한 p- 값을 기록하려는 경우 p <0.001이면 충분합니까?


6
이것은 매우 흥미 롭습니다 : stat.washington.edu/peter/342/nuzzo.pdf
Dan

4
느슨하게 관련됨 : Fisher and Neyman-Pearson 프레임 워크 사용시기에 대한 대답 에서 각 프레임 워크마다 역할이 있다고 주장합니다. 내 입장을 유지하면서 NP 프레임 워크에서는 정확한 p- 값이 중요하지 않지만 어부 프레임 워크에서는 (보고 된 자릿수가 실제로 신뢰할 수있는 정도) 말할 수 있습니다.
gung-복직 모니카

p- 값의 개념이 일반적으로 잘못된 질문에 대한 정답 일 때 p- 값 개념을 유지하려는 통계가 얼마나 많은지는 놀라운 일입니다. 통계 소프트웨어 패키지에서 p- 값이 구현되지 않았다고 가정합니다. 사람들이 그것을 얻기 위해 자신의 코드를 작성하는 것이 의심됩니다.
probabilityislogic

3
@probabilityislogic-순열 테스트에서 통계적 이빨을 잘라낸 경우 p- 값은 그 경우 생각할 수있는 매우 자연스러운 방법이므로 실제로는 그렇지 않은 경우 내 코드를 작성하여 얻을 수 있습니다 ... 테스트를 전혀하지 않는 경우는 드물지만 시뮬레이션이나 리샘플링이 필요한 비정형적인 상황에 대한 것입니다. 실제로 그렇게하는 경향이 있습니다. 대신 가설 검정이 일반적으로 잘못된 질문에 대답한다고 말하는 경향이 있습니다. 드문 경우지만, 나는 그들이 가치를 가지고 있다고 생각합니다 (적어도 다른 사람들은 나의 중요성 수준에 구속되지 않습니다).
Glen_b-복지 모니카

@glen_b-p- 값에 대한 나의 문제는 대안을 무시하기 때문에 가설 검정에 스스로 "응답"을 제공하지 않는다는 것입니다. 하나의 숫자로만 제한되는 경우 데이터의 가능성 값이 p- 값보다 통계가 훨씬 우수합니다 (p와 동일한 문제가 있음). 이렇게하면 사람들이 선택한 테스트 통계에 구속되지 않습니다 (중요도에 대한 임계 값에 구속되지 않음).
probabilityislogic

답변:


24
  1. 타입 1 / 오 거부 오류율 완전히 임의적이지는 않지만 그렇습니다. 인지력이 덜 복잡하기 때문에 α = .051 보다 다소 선호됩니다 ( 라운드 숫자와 5의 배수를 가진 사람들 ). 회의론과 실용성 사이의 적절한 타협이지만, 조금 구식 일 수도있다. 현대적인 방법과 연구 자원은 표준이 있어야하는 경우 높은 표준 (즉, 낮은 p 값)을 선호 할 수있다 ( Johnson, 2013 ) .α=.05α=.051p

    p.05ppfail toreject

  2. ppp

    p

  3. α

    p

fail torejectp-값이보고됩니까? (그리고 왜 R이 2.22e-16을 최소로 설정합니까?) "– 스택 오버플로에서 연결 한 질문 버전에 대한 답변보다 훨씬 낫습니다!

참고 문헌
-Johnson, VE (2013). 통계적 증거에 대한 개정 표준. 국립 과학 아카데미의 절차, 110 (48), 19313–19317. http://www.pnas.org/content/110/48/19313.full.pdf 에서 검색했습니다 .
-Lew, MJ (2013). P로 또는 P로 : P- 값의 증거 적 성격과 과학적 추론에서의 위치. arXiv : 1311.0081 [stat.ME]. http://arxiv.org/abs/1311.0081 에서 검색했습니다 .


3
+1, 여기에 좋은 생각이 많이 있습니다. 1 번 떨림, 다시 # 1, 나는 종종 우리가 선호하는대로 낮은 표준 (즉, 더 높은 p 값)을 가져야한다고 말하고 싶습니다 . 무언가를 연구하기에 충분한 힘을 갖기에 충분한 데이터를 얻는 것은 종종 어려운 일입니다. 드문 상태를 연구하려는 의사를 위해 여러 가지 전력 분석을 실시했습니다. 그들은 '이것은 실제로 이해되고 있으며, 새로운 접근법에 대한 아이디어가 있으며, 앞으로 2 년 동안 50 명의 환자를 얻을 수있을 것입니다.'라고 말합니다. 버려진. p가 0.05 미만이어야하는 경우 희귀 질환은 계속해서 연구 될 것입니다.
gung-복직 모니카

2
@ gung : 나는 완전히 동의합니다. 나는 그의 주장을 알고 있었기 때문에 Johnson (2013)을 인용했다. 나는 그것에 동의하기 때문이 아니라 :) IMO, 당신이 묘사 한 우려에 유연하지 않고 둔감 한 하나의 기존 표준을 가지고있다. # 3에 대한 응답은 핵심 문제 중 하나이며 위 또는 아래로 조정해도 문제가 해결되지 않습니다. 하드 및 빠른에 대한 실제 필요가없는 경우 fail to/ reject결정, 나는 훨씬 더 널 주어진 샘플의 확률에 비해 기반으로 얼마나 가치 하나의 증거 판단을하는 것이 훨씬 더 나은 것 같아요.
Nick Stauner

4
훌륭한 토론. 일부 관련성의 흥미로운 기사가 겔만과 스턴의 통계적으로 유의 한 "의미"와 "비 중요"의 차이 그 자체입니다 나는 특징을 필요로 P의 값을 언급하지 않았다, (나중에 미국의 통계 학자, 2006 년에 출판) 무의미하지만 p- 값을 비교하는 데 많은주의를 기울일 것입니다 (예 : 효과 추정치보다는). Gelman은 자신의 블로그에서 이와 관련된 문제를 자주 논의했습니다.
Glen_b-복귀 모니카

2
ppp

2
Gelman은 자신의 사이트에 게재 된 논문 의 pdf 에 대한 링크도 제공하는 것 같습니다 .
Glen_b-복지 모니카

13

가치가 의미가 있다면 정확한 가치가 의미가있는 것 같습니다.

p 값이이 질문에 답합니다 :

이 표본을 무작위로 추출한 모집단에서 귀무 가설이 참인 경우 표본에서 얻은 것 이상으로 검정 통계량을 얻을 확률은 얼마입니까?

이 정의는 어떻습니까?

이것은 p의 극단 값에 관한 질문과는 다른 질문입니다. p가 많은 0을 포함하는 명령문의 문제점은 극단에서 p를 얼마나 잘 추정 할 수 있는지에 관한 것입니다. 우리는 그것을 잘 할 수 없기 때문에 p의 정확한 추정치를 사용하는 것은 의미가 없습니다. 이것이 우리가 p = 0.0319281010012981이라고 말하지 않은 것과 같은 이유입니다. 우리는 확신을 가지고 그 마지막 자리를 모른다.

p <0.05가 아니라 p <0.001 인 경우 결론이 달라야합니까? 또는 정확한 숫자를 사용하려면 p = 0.035가 아니라 p = 0.00023 인 경우 결론이 달라야합니까?

문제는 우리가 p에 대해 일반적으로 결론을 내리는 방법에 있다고 생각합니다. 우리는 임의의 수준에 기초하여 "유의"또는 "유의하지 않다"고 말합니다. 이러한 임의의 수준을 사용하면 결론이 달라집니다. 그러나 이것이 우리가 이런 것들에 대해 생각해야하는 방식이 아닙니다. 우리는 증거의 무게를 살펴보고 통계적 테스트는 그 증거의 일부일 뿐입니다 . Robert Abelson의 "MAGIC 기준"을 (다시 한번) 연결하겠습니다.

크기-효과가 얼마나 큽니까?

조음-얼마나 정확하게 말합니까? 많은 예외가 있습니까?

일반성-어떤 그룹에 적용됩니까?

흥미-사람들이 관심을 가질 것인가?

신뢰성-말이 되나요?

중요한 것은 이들 모두의 조합입니다. Abelson은 p 값을 언급하지 않지만, 크기와 관절의 일종의 하이브리드로 제공됩니다.


5
우리는 종종 그것을 말하지는 않지만 기술적으로 p- 값은 귀무 가설이 참일 경우 "최소한 표본에서 얻은 것보다 극단적 인 검정 통계량을 얻을 확률"에 대한 내용 만 반영합니다. 모집단 분산 중 완벽하게 정확하며 테스트의 다른 모든 가정을 충족합니다. 부트 스트래핑을 통해 일부 p- 값에 대해 신뢰 구간을 던지십시오. 나는 우리가 백분위에 대해 그다지 확신하지 못하는 경우가 자주 있다고 생각합니다.
russellpierce

2
요컨대, 우리가 실제로 MAGIC으로 돌아와야 할 때 p- 값을 정량화하려고 시도하는 것이 역효과를 낳는 것은 매우 복잡한 반 사실입니다.
russellpierce

나는 p 값 주위에 신뢰 구간 (또는 신뢰 구간)을 두는 것을 생각하지 않았다는 것을 인정해야합니다. 이 분야에서 얼마나 많은 일을했는지 ​​궁금합니다.
Peter Flom-Monica Monica 복원

2
인용이 편리하지는 않지만 그 선을 따라 작업이 있다는 것을 알고 있습니다. 어떻든간에 신뢰 구간의 신뢰 구간을 거의 무한정으로 할 수 있기 때문에 수행해야 할 학업 적 일입니다 (최대 값이 있음) 모든 데이터 세트에서 합리적으로 추정되는 분산). 나는 @Nick Stauner와 한 번에이 라인을 따라 길고 자세한 대화를 나누었습니다. 그는 대화 중에 파헤친 기사 중 일부를 테이블에 가져다 놓을 수도 있습니다.
russellpierce

1
내가 기억하는 p 값 에 대한 신뢰 구간에 대한 것은 없지만 해당 섹션에 대해 스키밍했을 수 있습니다. 나는에 대한 신뢰 구간 만들기에 관심이되지 않은 페이지를 하나의 값을)
닉 Stauner을
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.