p- 값이 통계적 유의성을 결정하는 가장 좋은 방법이 아닐 수있는주의해야 할 데이터 조건은 무엇입니까? 이 범주에 속하는 특정 문제 유형이 있습니까?
p- 값이 통계적 유의성을 결정하는 가장 좋은 방법이 아닐 수있는주의해야 할 데이터 조건은 무엇입니까? 이 범주에 속하는 특정 문제 유형이 있습니까?
답변:
데이터 준설 (Data Dredging ) 에 대해 묻습니다 . 이는 데이터 세트에 대해 매우 많은 수의 가설을 테스트하거나 동일한 데이터에서 제안한 데이터 세트에 대한 가설을 테스트 할 때 발생합니다.
특히, 다중 가설 위험 및 데이터에서 제안한 검정 가설을 확인하십시오 .
해결책은 Scheffé의 방법 이나 (매우 오래된) Bonferroni 보정 과 같은 False 발견 률 또는 Familywise 오류율에 대해 일종의 수정을 사용하는 것입니다 .
다소 덜 엄격한 방법으로 각 통계 결과에 대한 승산 비 (OR)에 대한 신뢰 구간을 기준으로 발견을 필터링하는 데 도움이 될 수 있습니다. 승산 비에 대한 99 % 신뢰 구간이 10-12이면 OR은 <= 1이며 , 특히 표본 크기가 큰 경우 확률이 매우 작습니다. 이와 같은 것을 발견하면 수백만 개의 가설 테스트에서 나온 경우에도 강력한 효과 일 것입니다.
알아야 할 한 가지는 사용중인 샘플 크기입니다. 인구 조사 데이터를 사용하는 경제학자와 같은 매우 큰 표본은 p- 값이 줄어 듭니다. 이 백서 "너무 큰 실패 : 큰 표본 및 p- 값 문제" 는 일부 문제를 다룹니다.