문맥
이것은이 질문 과 다소 유사 하지만 정확한 복제본이라고 생각하지 않습니다.
부트 스트랩 가설 검정을 수행하는 방법에 대한 지침을 찾는 경우 일반적으로 신뢰 구간에 경험적 분포를 사용하는 것이 좋지만 귀무 가설 아래 분포에서 부트 스트랩을 올바르게 부트해야 p- 값. 예를 들어,이에 대한 허용 대답을 참조 질문을 . 인터넷의 일반적인 검색은 대부분 비슷한 답변을 얻는 것으로 보입니다.
경험적 분포에 기초하여 p- 값을 사용하지 않는 이유는 대부분 번역 불일치가 없기 때문입니다.
예
간단한 예를 들어 보겠습니다. 우리는 동전을 가지고 있으며 머리의 주파수가 0.5보다 큰지 확인하기 위해 일방적 인 테스트를 원합니다.
우리는 시행을 수행 하고 머리를 얻습니다 . 이 테스트의 실제 p- 값은 입니다.
반면에 20 개 헤드 중 14 개를 부트 스트랩하면 및 이항 분포에서 효과적으로 샘플링합니다 . 0.2를 빼서이 분포를 이동하면 얻은 경험적 분포에 대해 관찰 된 값 0.7을 테스트 할 때 거의 유의미한 결과를 얻습니다.
이 경우 불일치는 매우 작지만 테스트 한 성공률이 1에 가까워지면 더 커집니다.
질문
이제 제 질문의 진짜 요점을 보도록하겠습니다. 동일한 결함도 신뢰 구간을 유지합니다. 실제로 신뢰 구간에 명시된 신뢰 수준 가있는 경우 귀무 가설에서 모수를 포함하지 않는 신뢰 구간은 의 유의 수준에서 귀무 가설을 기각하는 것과 같습니다 .
경험적 분포에 기초한 신뢰 구간이 널리 수용되고 p- 값이 아닌 이유는 무엇입니까?
더 깊은 이유가 있거나 사람들이 신뢰 구간만큼 보수적이지 않습니까?
이 답변에서 Peter Dalgaard는 나의 주장에 동의하는 것처럼 보입니다. 그는 말한다 :
이 추론에 대해 특별히 잘못된 것은 없으며 CI 계산보다 적어도 그리 나쁘지는 않습니다.
(많은) 곳은 어디입니까? 그것은 p- 값을 생성하는 것이 약간 더 나쁘다는 것을 암시하지만 요점을 정교하게 설명하지는 않습니다.
마지막 생각들
또한 Efron과 Tibshirani 의 Bootstrap 소개 에서는 신뢰 구간에 많은 공간을 할당하지만 적절한 귀무 가설 분포에서 생성되지 않는 한 p- 값은 아닙니다. 순열 테스트에 대한 장의 신뢰 구간 및 p- 값.
내가 연결 한 첫 번째 질문으로 다시 돌아 갑시다 . Michael Chernick의 답변에 동의하지만 경험적 부트 스트랩 분포를 기반으로 한 신뢰 구간과 p- 값은 일부 시나리오에서 똑같이 신뢰할 수 없다고 주장합니다. 구간이 정상이라고 말하지만 p- 값은 그렇지 않다는 많은 사람들을 찾는 이유를 설명하지 않습니다.