결과가 "매우 중요"하다고 말하는 것이 잘못입니까?


18

p- 값이 기존 α- 수준 0.05 보다 훨씬 낮을 때 통계 학자들이 왜 결과를 " 매우 유의미한" 것으로 언급하지 못하게 하는가?pα0.05

99 % ( p = 0.01 )의 확률 만 제공하는 결과보다 99.9 %의 확률로 Type I 오류 ( ) 가 아닌 결과를 신뢰하는 것이 실제로 잘못 입니까?p=0.001p=0.01


16
@gung의 답변 을 읽으면 가치가 있습니다 . 간단히 : "유의 대 유의하지 않은"또는 "무의 가설 거부 및 무의 가설 거부하지 않기"결정의 경우 값이 연구 전에 설정 한 α 아래 인지 여부 만 중요합니다 (Neyman & Pearson). . 반면에 p- 값은 "차단"(피셔)이없는 귀무 가설에 대한 지속적인 증거 측정치로 간주 할 수 있습니다 . pαp
COOLSerdash

10
수정하면 통계 학자로부터 특정 내용을들을 수있는 이유를 이해하는 데 도움이 되는 p- 값 (p- 값 오류 확률 이 아님 ) 에 대해 심각한 오해가있는 것으로 보입니다 .
guy

10
나는 때때로 "매우 중요한"과 같은 문구를 사용한다고 고백합니다. 보고서의 다른 곳에서는 초기 결과의 많은 부분이 다중 테스트를 위해 조정되어야 할 수 있습니다. 여기서 "매우 중요"는 "다중 비교를위한 적절한 조정 후에도 유의미한"이라는 기술적 의미를 얻습니다. 모든 독자 가 사용 하기에 적절한 에 동의하더라도 (여러 이해 관계자가 사용하는 분석에는 드물게) "중요한"것은 보고서를보기 전에 각 독자가 염두에 둔 가설 세트에 따라 다릅니다. α
whuber

7
모든 통계 학자들이 그것이 틀렸다고 말하는 것은 아닙니다. 필자는이 데이터에서 내가 사용했던 것보다 실질적으로 낮은 유의 수준으로 작동하는 사람들이 널을 거부했을 것이라는 것을 의미하기 위해 나 자신이라는 용어를 사용한다. 그것보다. 나는 그러한 문구의 의미를 해석 할 때 특별히 잘못 되기보다는 주의를 기울여야한다고 말합니다 . 여기서 요점 중 일부는 관련이 있습니다.
Glen_b-복지 주 모니카

7
(ctd) ... 비교해 볼 때, 더 큰 관심사는 단순히 관심 질문에 대답하지 않는 가설 검정을 사용하는 사람들이라고 생각합니다 (매우 자주 생각합니다). 아주 작은 p- 값을 표현하는 방식의 경미한 부정에 대해 지나치게 독단적이기보다는 눈부신 문제와 중요한 문제에 집중하는 것이 좋습니다.
Glen_b-복지 주 모니카

답변:


17

나는 결과가 "매우 중요하다"고 말하는 데에는 많은 잘못이 없다고 생각한다 (그렇지만, 조금 부주의하다).

이는 유의 수준 더 작게 설정 한 경우 에도 결과가 유의 한 것으로 판단 되었음을 의미합니다 . 또는 일부 독자가 α 를 훨씬 더 작게 생각 하더라도 결과가 유의미하다고 판단 수 있습니다.αα

p- 값은 (일부 경고와 함께) 데이터의 속성 인 반면 , 유의 수준 는 보는 사람의 눈에 있습니다.αp

관찰 단지 관찰과 동일하지 않습니다 P = 0.04를 모두 자신의 분야 (이 표준 규칙에 의해 "의미"라고 할지라도, α = 0.05 ). 작은 p- 값은 귀무에 대한 강력한 증거를 의미합니다 (Fisher의 가설 검정 프레임 워크를 좋아하는 사람들에게). 이는 효과 크기 주변의 신뢰 구간이 더 큰 마진을 가진 널값을 제외 함을 의미합니다 (CI를 p- 값보다 선호하는 사용자의 경우 ). 그것은 널의 사후 확률이 더 작다는 것을 의미합니다 (이전의 일부를 가진 베이지안의 경우); 이것은 모두 동등하며 단순히 결과가 더 설득력 이 있음을 의미합니다.p=1010p=0.04α=0.05pp. p- 값이 작을수록 더 설득력이 있습니까?를 참조하십시오 . 더 많은 토론을 위해.

"매우 중요한"이라는 용어는 정확하지 않으며 반드시 그럴 필요는 없습니다. 이것은 놀랍게도 큰 효과 크기를 관찰하고 "거대한"(또는 단순히 "매우 큰")이라고 부르는 것과 유사한 주관적인 전문가 판단입니다. 과학적 글쓰기에서도 데이터에 대한 질적이며 주관적인 설명을 사용하는 데 아무런 문제가 없습니다. 물론 객관적인 정량 분석도 제공됩니다.


위의 훌륭한 주석, +1 ~ @whuber, @Glen_b 및 @COOLSerdash를 참조하십시오.


2
PP<0.05

전혀 조잡하지 않습니다. 공식적으로 정의 된 것으로 잘 문서화되어 있습니다.
올빼미

3

이것은 일반적인 질문입니다.

비슷한 질문은 "p <= 0.05가 중요한 이유는 무엇입니까?" ( http://www.jerrydallal.com/LHSP/p05.htm )

@ Michael-Mayer는 답의 한 부분을 주었다 : 중요성은 답의 한 부분 일 뿐이다. 데이터가 충분하면 일반적으로 일부 매개 변수가 "유의 한"것으로 표시됩니다 (Bonferroni 수정 참조). 다중 시험은 유의성을 찾는 대규모 연구가 일반적이고 p- 값 < 10-8 이 필요한 유전학에서 특정한 문제입니다 ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ ).

또한 많은 분석에서 한 가지 문제는 기회 주의적이며 사전에 계획되지 않았다는 것입니다 (예 : "데이터를 충분히 고문하면 자연은 항상 고백합니다"-Ronald Coase).

일반적으로 분석이 사전 계획된 경우 (통계 검정력에 대한 반복 분석 수정) 중요한 것으로 간주 될 수 있습니다. 종종 여러 개인 또는 그룹의 반복 테스트가 무언가 효과가 있는지 확인하는 가장 좋은 방법입니다. 그리고 결과의 반복은 가장 중요한 의미에 대한 테스트입니다.


2

테스트는 흑백 결정을위한 도구입니다. 즉, '진정한 치료 효과가 있습니까?'와 같은 예 / 아니오 질문에 대답하려고합니다. 특히 데이터 세트가 큰 경우 이러한 질문은 많은 리소스를 낭비합니다. '진정한 치료 효과가 얼마나 큰가?'와 같은 정량적 질문에 대한 답을 얻을 수 있다면 왜 이진 질문을 하는가? 암묵적으로 예 / 아니오 질문에도 대답합니까? 따라서 확실성이 높은 정보에 대한 예 / 아니오 질문에 대답하는 대신 훨씬 더 많은 정보가 포함 된 신뢰 구간을 사용하는 것이 좋습니다.


2
+1 이것이 OP의 질문에 어떻게 대답하는지에 대해 더 명백 할 수도 있지만 (별로 명확하지는 않습니다).

@Matthew : 전적으로 동의합니다.
Michael M

마이클 감사합니다. 그러나 신뢰 구간 ( "연속 척도"답변을 제공하는)은 효과 크기와 관련이 있다고 생각합니다. 그럼에도 불구하고 연속적인 답변을 보완하기 위해 이진 답변이 필요하지 않습니까? 즉,이 효과 (CI에 의해 기술 된 크기)가 합의 된 α 수준을 충족하는지 여부 아니면 p- 값 자체에 CI를 제공 할 수도 있습니까?
z8080

(A) "효과 크기"는 일반적으로 표준화 된 버전의 치료 효과를 나타내므로 효과 자체보다 해석하기가 쉽지 않습니다. (B) 시뮬레이션 불확실성을 표현하기 위해 시뮬레이션 된 p 값에 대해 p 값에 대한 CI가 추가되는 경우가 있습니다. (C) 레벨이 0.05 인 경우 거의 모든 테스트 상황에서 해당 95 % ci를 보면 테스트의 흑백 결정을 도출 할 수 있습니다.
Michael M

(계속) 귀하의 질문은 어떻게 든 다음 질문과 관련이 있습니다. 99.9999 % ci조차도 null과 호환되지 않거나 실제 효과에 대한 95 % ci의 하한선도 매우 유망하다고 말하는 것이 더 유용합니까?
Michael M
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.