p- 값은 언제 사기입니까?


14

p- 값이 통계적 유의성을 결정하는 가장 좋은 방법이 아닐 수있는주의해야 할 데이터 조건은 무엇입니까? 이 범주에 속하는 특정 문제 유형이 있습니까?


2
으스스한 답변 : 거의 항상. 분석가가 데이터를 조사 할 때 유형 1 오류 (예 : "거짓 경보")를 생성하는 데 큰 동기가 있으므로 거의 모든 p- 값이 "너무"작습니다.
statsRus

7
그냥 이것을 버리지 만, 이런 종류의 질문은 Cross Validated 에서 가장 잘 제기되지 않습니까?
buruzaemon

1
@buruzaemon : 아마도. 검색을 수행 한 결과 가장 일치하는 결과는 다음과 같습니다. stats.stackexchange.com/questions/67320/… 이 문제를 다루는 소수 이상의 질문은 없습니다.
Alex I

답변:


9

데이터 준설 (Data Dredging ) 에 대해 묻습니다 . 이는 데이터 세트에 대해 매우 많은 수의 가설을 테스트하거나 동일한 데이터에서 제안한 데이터 세트에 대한 가설을 테스트 할 때 발생합니다.

특히, 다중 가설 위험데이터에서 제안한 검정 가설을 확인하십시오 .

해결책은 Scheffé의 방법 이나 (매우 오래된) Bonferroni 보정 과 같은 False 발견 률 또는 Familywise 오류율에 대해 일종의 수정을 사용하는 것입니다 .

다소 덜 엄격한 방법으로 각 통계 결과에 대한 승산 비 (OR)에 대한 신뢰 구간을 기준으로 발견을 필터링하는 데 도움이 될 수 있습니다. 승산 비에 대한 99 % 신뢰 구간이 10-12이면 OR은 <= 1이며 , 특히 표본 크기가 큰 경우 확률이 매우 작습니다. 이와 같은 것을 발견하면 수백만 개의 가설 테스트에서 나온 경우에도 강력한 효과 일 것입니다.


1
Bonferroni는 확실히 오래된 학교이지만 여전히 인기가 있습니다. 이와 관련하여 Šidák correction ( en.wikipedia.org/wiki/%C5%A0id%C3%A1k_correction ) 이라는 방법이 있습니다. 나는 대규모 타겟팅 광고 시스템에서이 접근법을 Hive의 UDF로 구현할 수 있었기 때문에이를 부릅니다. 그러나 이것은 테스트간에 독립성이있을 때만 더 잘 작동합니다. 그렇지 않은 경우 Bonferroni 또는 다른 방법으로 폴백해야합니다.
Chris Simokat

5

문맥 밖에서 p- 값을 고려해서는 안됩니다.

( xkcd 로 설명 된 ) 하나의 기본 요점 은 실제로 수행하는 테스트 수를 고려해야한다는 것입니다. 매번 귀무 가설이 참이더라도 20 개의 테스트 중 하나에서 p <0.05를 보더라도 충격을받지 않아야합니다.

이것의 더 미묘한 예는 고 에너지 물리학에서 발생하며 다른 효과 로 알려져 있습니다. 새로운 입자를 나타낼 수있는 신호를 검색하는 파라미터 공간이 클수록 무작위 변동으로 인한 명백한 신호를 볼 가능성이 높습니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.