P- 값을 잘못 이해하고 있습니까?


16

그래서 P- 값을 올바르게 해석하는 방법에 대해 많은 것을 읽었으며, 읽은 내용에서 p- 값은 귀무 가설이 참인지 거짓인지에 대해 NOTHING이라고 말합니다. 그러나 다음 문장을 읽을 때

p – 값은 제 1 종 오류를 만들거나 귀무 가설이 참일 경우이를 기각 할 확률을 나타냅니다. p 값이 작을수록 귀무 가설을 잘못 기각 할 확률이 작아집니다.

편집 : 그리고 5 분 후에 나는 읽었습니다.

P 값의 잘못된 해석은 매우 일반적입니다. 가장 일반적인 실수는 실제 귀무 가설 (유형 I 오류)을 거부하여 P 값을 실수 할 확률로 해석하는 것입니다.

이것은 나를 혼란스럽게했다. 어느 것이 맞습니까? 누구든지 p- 값을 올바르게 해석하는 방법과 그것이 제 1 종 오류를 일으킬 가능성과 어떻게 관련이 있는지 설명해 주시겠습니까?


1
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is truep – 값은 제 1 종 오류를 일으킬 수있는 선험적 확률, 즉 그것이 사실이라는 가정하에 귀무 가설을 기각 할 가능성을 나타냅니다.
ttnphns

4
@Paul : null이 true 인 경우 조건부로 null을 거부 할 확률은 유형 I 오류의 확률이며 p- 값과 같지 않습니다. 유형 I 오류의 확률은 (연속 랜덤 변수의 경우) 선택한 유의 수준과 같습니다. 아래의 답변도 참조하십시오.

네, 지금 봤습니다. 당신은 절대적으로 옳습니다.
Paul

4
@fcoppens 귀무 가설이 참인 경우 제 1 종 오류 확률은 사전 선택된 알파 수준과 같습니다. 무조건적인 경우 널이 참인지 거짓인지 알 수 없으므로 널 진리에 대한 사전 확률을 제공하는 경우 유형 I 오류의 확률 만 지정할 수 있습니다.
Michael Lew-복원 Monica Monica

@ Michael Lew : null에 대한이 컨디셔닝은 아래 내 대답에 언급되어 있습니까?

답변:


25

귀하의 의견 때문에 두 개의 별도 섹션을 만들 것입니다.

p- 값

가설 검정에서 당신은에 대한 '통계적 증거'찾을 수있는 대안 가설을; 내가 귀무 가설을 기각하지 못하면 어떻게됩니까? 수학에서 '모순으로 증명'과 유사합니다.

따라서 '통계적 증거'를 찾으려면 반대라고 가정합니다 . 우리는 H 1 이라고 증명하기 위해 시도하는 것의 을 나타냅니다 . 그런 다음 표본을 추출하고 표본에서 소위 검정 통계량 (예 : t- 검정의 t- 값)을 계산합니다.H0H1

그런 다음, 이 참이고 우리의 표본이 H 0 아래 분포에서 무작위로 추출 된다고 가정 할 때 , 우리는 (랜덤) 표본에서 도출 된 값을 초과하거나 같은 값을 관찰확률을 계산할 수 있습니다 . 이 확률을 p- 값이라고합니다.H0H0

이 값이``충분히 작습니다 '', 즉 우리가 선택한 유의 수준보다 작 으면 을 기각 하고 H 1 이 '통계적으로 입증 된' 것으로 간주합니다 .H0H1

이러한 방식으로 몇 가지 중요한 사항이 있습니다.

  • 이 참 이라는 가정하에 확률을 도출했습니다H0
  • 우리는 H 0 에서 가정 된 disrubtion에서 무작위 샘플을 가져 왔습니다.H0
  • 우리는 결정 에 대한 증거를 발견하도록 랜덤 샘플로부터 유래 된 시험 통계가 초과되는 확률이 낮은 경우. 따라서 H 0 이 참일 때 초과되는 것이 불가능하지 않으며 ,이 경우 유형 I 오류가 발생합니다. H1H0

따라서 유형 I 오류는 무엇입니까? H 0 에서 무작위로 추출한 샘플 이 실제로는 사실이지만 H 0 은 거짓 이라는 결론으로 ​​이어집니다 .H0H0

이는 p- 값이 제 1 종 오류 확률이 아니라는 것을 의미합니다 . 실제로, 유형 I 오류는 검정에 의한 잘못된 결정이며 결정은 p- 값을 선택된 유의 수준과 비교하여 만 이루어질 수 있으며, p- 값만으로는 결정을 내릴 수 없으며, 비교 후에 만 ​​가능합니다. 결정이 이루어진 선택된 유의 수준에 대한 p- 값이며, 결정이 없는 한 제 1 종 오류도 정의되지 않습니다.

그렇다면 p- 값은 무엇입니까? 의 가능성이 잘못 거부 으로 인해 우리는 아래에 임의의 샘플을 그릴 수 있다는 사실이다 H 0 이 샘플을 그림으로써 우리가 '불운' '를 가지고 할 수 있도록,이'불운 ''리드 그 허위 불합격 H 0 . 따라서 p- 값 (완전히 정확하지는 않지만)은``나쁜 샘플 ''을 그릴 확률과 비슷합니다. p- 값의 올바른 해석은 검정 통계량이 H 0 에서 무작위로 추출 된 표본에서 파생 된 검정 통계량의 값을 초과 할 확률이라는 것입니다.H0H0H0H0


거짓 발견 률 (FDR)

위에서 설명한 것처럼 귀무 가설이 기각 될 때마다이를 대한 '통계 증거'로 간주합니다 . 그래서 우리는 새로운 과학적 지식을 찾았으므로이를 발견 이라고합니다 . 또한 유형 I 오류를 만들 때 잘못된 발견 (즉, H 0 거부)을 수행 할 수 있다고 위에서 설명했습니다 . 이 경우 우리는 과학적 진실에 대한 잘못된 믿음을 가지고 있습니다. 우리는 정말로 진실한 것을 발견하고 싶기 때문에 거짓 발견을 최소한으로 유지하려고 시도합니다. 즉, 제 1 종 오류를 통제합니다. 제 1 종 오류 확률이 선택된 유의 수준 α 임을 알기가 어렵지 않습니다 . 따라서 제 1 종 오류를 제어하기 위해 α를 수정합니다.H1H0αα``거짓 증거 ''를 기꺼이 수용하려는 수준을 반영합니다.

직관적으로, 이것은 우리가 많은 수의 샘플을 추출하고 각 샘플로 테스트를 수행하면 이러한 테스트 의 일부 가 잘못된 결론을 초래한다는 것을 의미합니다. 우리는 '많은 샘플에 대해 평균을 내고있다' 는 것에 주목하는 것이 중요하다 . 같은 테스트, 많은 샘플. α

동일한 샘플 을 사용하여 여러 가지 다른 테스트 를 수행 하는 경우 여러 테스트 오류가 발생합니다 ( 가족 별 오류 경계 에 대한 내 의견 : 독립 질문에 대한 다른 연구에서 데이터 세트를 재사용하면 여러 테스트 문제가 발생합니까? ). 이 경우 Bonferroni 보정과 같이 FWER (family-wise error rate) 을 제어하는 ​​기술을 사용하여 팽창을 제어 할 수 있습니다 .α

FWER와 다른 접근 방식은 FDR (False Discovery Rate )을 제어하는 ​​것 입니다. 이 경우 하나의 제어 모든 검색 중 오류가 발견 횟수 (FD) (D), 그래서 하나의 컨트롤 , D는 기각 된H0의 수입니다.에프H0

따라서 제 1 종 오류 확률 은 여러 샘플에서 동일한 테스트를 실행하는 것과 관련이 있습니다. 많은 수의 샘플의 경우, 제 1 종 오류 확률은 샘플 수로 수렴되어 잘못된 거부를 유도 한 총 샘플 수로 나눕니다 .

FDR은 동일한 샘플과 테스트는 의지의 거대한 수 많은 시험과 관련이있다 타입 I 오류가 만든 테스트의 수에 수렴 (즉, 거짓 발견의 수) 전체로의 거부의 수를 나누어 (즉, 총 발견 횟수)H0 .

위의 두 단락을 비교하십시오.

  1. 상황이 다릅니다. 하나의 테스트와 많은 샘플 대 많은 테스트와 하나의 샘플.
  2. 제 1 종 오류 확률을 계산하기위한 분모는 FDR을 계산하기위한 분모와 분명히 다릅니다. 분자는 어떤 식 으로든 비슷하지만 컨텍스트가 다릅니다.

FDR은 동일한 샘플에 대해 많은 테스트를 수행하고 1000 개의 발견 (예 : 거부 )을 찾은 후 FDR이 0.38 인 경우 0.38 × 1000 이된다고 알려줍니다.H00.38×1000 잘못된 발견 .


5
The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0그렇습니까? "같거나 초과하지 않습니까?" P- 값은 실제 H0 하에서 실제로 관찰 된 것보다 큰 차이 또는 연관성을 관찰하는 확률입니다 .
ttnphns

@ttnphns 연속 검정 통계량의 경우 점의 측정 값이 0이므로 차이가 없습니다. 이산 검정 통계량에 대해서는 귀하가 옳습니다 (+1). 그에 따라 텍스트를 변경했습니다.

1
P- 값과 제 1 종 오류율을 매우 유용하게 구분하지만 "proven"이라는 단어에 더주의를 기울여야한다고 생각합니다. 내 생각에 수정자를 "통계적으로"추가하면 충분히 부드럽게되지 않습니다.
Michael Lew-

1
이진 상태 만 존재하는 것처럼 증거를 처리했습니다. 비 통계적 증거에 대한 표준 이해에서 단어 개념은 등급이 매겨져 있으며 단일 차원의 힘이 포착 할 수있는 것보다 더 복잡합니다. 어려움은 일반적인 증거 해석과 오류율 고려의 비 호환성에서 비롯됩니다. FDR 프레임 워크 내에서 '증거'에 대한 이진이 아닌 해석을 캡처하는 모든 계정을 읽고 싶습니다. (아직 보지 못했습니다.)
Michael Lew-Monica Monica 복원

1
수정 해 주셔서 감사합니다. 지난 밤에 적절한 변경을했고 귀하의 게시물을 인정했습니다.
Antoni Parellada

4

첫 번째 진술은 엄격하지 않습니다.

중요성의 오해에 관한 멋진 논문에서 : ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf )

"[이 문장]은 유형 I의 오류 정의와 유사하게 보일 수 있습니다 (즉, 실제로 사실이지만 H0를 거부 할 확률). 그러나 실제로 H0을 거부 한 경우이 결정은 다음과 같은 경우에만 잘못됩니다. 따라서 "당신이 잘못된 결정을 내릴 확률"은 p (H0)이며이 확률은 귀무 가설 유의성 검정으로 도출 할 수 없습니다. "

더 간단히 말하면, H0을 잘못 거부했을 확률을 평가하려면이 테스트를 사용하여 간단히 얻을 수없는 H0이 사실 일 확률이 필요합니다.


감사합니다! 그러므로 statisticsdonewrong.com/p-value.html 의 첫 번째 부분을 읽을 때 저자는 FDR이 38 %라고 결론 내렸기 때문에 제 1 종 오류 확률은 38 %입니까?
rb612

FDR은 False Discovery 비율이며 유형 I 오류와는 매우 다르므로 질문에 대한 대답은 아니오입니다. FDR은 여러 테스트와 관련이 있습니다. 즉, 동일한 샘플에서 여러 테스트를 수행하는 경우 stats.stackexchange.com/questions/164181/…을 참조하십시오 . FDR은 Familywise Error Rate의 대안이지만 주석의 문자 수가 너무 제한적이라고 설명합니다.

FDR을 설명하기 위해 대답에 두 번째 섹션을 추가했습니다.

1
사전에 H0이 참일 확률을 결정할 수없는 것처럼, 사전이 없으면 FDR을 결정할 수 없습니다. FDR 논문을 해석하는 방법에주의를 기울여야합니다. FDR 논문에 사용 된 이전 내용이 자신의 실험 환경과 반드시 ​​관련이있는 것은 아닙니다.
Michael Lew-

1

p- 값의 올바른 해석은 귀무 가설이 참이라고 가정 할 때 관측 된 값 (적어도 "최고")만큼 대체 가설에 전도성이있는 결과 의 조건부 확률입니다 . 잘못된 해석에는 일반적으로 한계 확률 또는 조건 전환이 포함됩니다.

p- 값=(관찰 된 결과만큼 극단적|H0)(제 1 종 오류).

-1

p- 값을 사용하면 귀무 가설 (또는 주장 된 가설)을 기각 할 수 있는지 여부를 결정할 수 있습니다. p- 값이 유의 수준 α보다 작 으면 통계적으로 유의미한 결과를 나타내며 귀무 가설을 기각해야합니다. p- 값이 유의 수준 α보다 크면 귀무 가설을 기각 할 수 없습니다. 테스트 통계에서 p- 값을 찾기 위해 표를 사용하거나 p-value calculator 와 같은 온라인 계산기를 사용하는 경우 p- 값을 찾는 전체적인 이유입니다 .

Now I know that you mentioned type I and type II errors. This really has nothing to do with the p-value. This has to do with the original data, such as the sample size used and the values obtained for the data. If the sample size is too small, for instance, this can lead to a type I error.


2
-1. 공감대를 가지고 우리 사이트를 방문하게되어 유감이지만,이 답변은 명백히 부정확합니다. p- 값이 귀무 가설의 진실 일 확률은 아닙니다. 이것은 stats.stackexchange.com/questions/31 과 같은 p- 값 및 가설 테스트에 대해 많은 스레드에서 충분히 논의되었습니다 .
whuber

1
더 정확한 답을 위해 원래의 답변을 약간 수정했습니다.
user1445657 2012 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.