부트 스트랩 가설 검정에서 귀무 가설하에 데이터를 다시 샘플링해야하는 이유는 무엇입니까?


11

부트 스트랩 방법을 가설 테스트에 간단하게 적용하는 것은 부트 스트랩 샘플에서 반복적으로 계산 하여 테스트 통계 의 신뢰 구간을 추정하는 것입니다 (부트 스트랩 에서 샘플링 된 통계 이라고 함). ). 가정 된 모수 (보통 0)이 의 신뢰 구간을 벗어나 면 거부 합니다. θ ^ θ * H0θ0 ^ θ *θ^θ^θ^H0θ0θ^

나는이 방법이 약간의 힘이 없다는 것을 읽었습니다. Hall P. and Wilson SR의 "부트 스트랩 가설 테스트를위한 두 가지 지침"(1992) 의 기사 에서 첫 번째 지침으로 작성되었으며, 가 아니라 . 그리고 이것은 내가 이해하지 못하는 부분입니다.^ θ * -θ0θ^θ^θ^θ0

하지 그 측정 추정에 불과 바이어스 ? 편견없는 추정의 경우이 표현의 신뢰 구간은 항상 하지만 ? 에 대한 정보를 넣을 수있는 곳은 없습니다 .^ θ * ^ θ * -θ0 θ =θ0θ0θ^θ^θ^θ^θ0θ^=θ0θ0


이 기사에 액세스 할 수없는 사람들에게는 논문 바로 뒤에 나오는 관련 단락의 인용문입니다.

이것이 중요한 이유를 이해하기, 관찰 테스트가 거부 포함됩니다 의 경우 "너무 크다" 만약 의 진정한 가치에서 먼 길을입니다 (즉, 경우 오류 조잡한이다) 다음의 차이 의 비모수 적 부트 스트랩 분포에 비해 너무 크게 보이지 않습니다. . 보다 의미있는 비교는. 실제로 의 실제 값 이| θ - θ 0 | θ 0 θ H 0 | θ - θ 0 | | θ - θ 0 | | ^ θ * - θ | θ θ 1H0|θ^θ0|θ0θH0|θ^θ0||θ^θ0||θ^θ^|θθ1부트 스트랩 테스트의 검정력은테스트가 리샘플링을 기반으로하면 증가합니다. 하지만 전원이 많아야로 유의 수준을 감소 (로 증가) 테스트가 리샘플링 기반으로하는 경우 |θ1θ0||θ^θ^||θ1θ0||θ^θ0|

답변:


7

이것이 부트 스트랩 유추 원리입니다. (알 수없는) 기본 실제 분포 는 cdf 을 사용하여 샘플을 생성했으며, 일부 기능 대한 통계량 을 생성했습니다 . 부트 스트랩을 사용하는 아이디어는 알려진 분포 기반으로 샘플링 분포에 대한 진술을하는 것입니다. 여기서 동일한 샘플링 프로토콜을 사용하려고합니다 (iid 데이터에만 가능합니다. 종속 데이터는 항상 방법에 한계가 있습니다) 정확하게 샘플링 과정을 재현 할 수 있으며 동일한 기능 적용합니다 . 다른 포스트에서 시연했습니다X 1 , ... , X가 N F N θ = T ( F N ) T ( ) ~ F T ( ) θ - θ 0 θ * ~ F T ( ) T ( ~ F ) ~ F = F N T ( F N ) θ에프엑스1,,엑스에프θ^=(에프)()에프~()깔끔한 다이어그램으로 (내 생각은). 따라서 중심 관심의 양인 (샘플링 + 체계적) 편차 의 부트 스트랩 아날로그 는 분포에 대해 알려진 것으로 부트 스트랩 복제 의 편차입니다. , 적용한 샘플링 프로세스 및 기능적 , 즉 중심 경향의 측정 값은 입니다. 원래 데이터를 대체하여 표준 비모수 적 부트 스트랩을 사용한 경우 이므로 중심 경향의 측정 값은 원래 데이터를 기준으로 합니다.θ^θ0θ^에프~()(에프~)에프~=에프(에프)θ^

번역 이외에도 때로는 극복하기 어려운 부트 스트랩 테스트와 관련된 미묘한 문제가 있습니다. 널 (NULL) 하에서 검정 통계량의 분포는 대안 (예를 들어, 부트 스트랩으로 실패 하는 파라미터 공간의 경계에 대한 시험에서) 하에서 검정 통계량의 분포와 크게 다를 수있다 . -test 와 같은 학부 수업에서 배우는 간단한 시험 은 교대로 변하지 않지만, 다음 단계의 개념 복잡성 인 점근 적 시험 으로 옮겨야 만한다면 "어쩌면 모든 것을 바꾼다"는 생각은 실패 합니다. 이것에 대해 생각해보십시오 : 당신은 테스트하고 관찰 된 입니다. 그런 다음χ 2 μ = 0 ˉ x = 0.78 χ 2 ( ˉ xμ ) 2 / ( s 2 / n ) ˉ x 2 / ( s 2 / n ) ˉ x 2 / ( s 2 / n ) n ˉ x 2 / s 2χ2μ=0엑스¯=0.78χ2부트 스트랩 아날로그를 사용한 테스트 이면이 테스트는 예상대로 중앙 테스트가 아닌 처음부터 비 중심성을 내장 합니다. 부트 스트랩 테스트를 중앙 집중화하려면 원래 추정치를 빼야합니다.(엑스¯μ)2/(에스2/)엑스¯2/(에스2/)엑스¯2/(에스2/)nx¯2/s2

테스트 피어슨 이르기 다변량 상황에서 불가피한 에 비상 테이블 BOLLEN 스타 인 - 부트 스트랩 구조 방정식 모델 검정 통계량. 다변량 공분산 행렬에 대한 검정의 경우 에는 적절한 회전으로 수행 할 수 있지만 분포 이동 개념은 이러한 상황에서 잘 정의하기가 매우 어렵습니다 .χ 2χ2χ2


감사합니다. 하나는 내가 생각이 여전히 우리가에 대한 정보를 넣을까요 여기서 이해가 안 부트 스트랩에? 어디 거짓의 상당히 진정한 분포에서 벗어날 수 있습니다. H 0 θ 0θ0H0θ0
아담 Ryczkowski

널 아래에서 p- 값을 계산하므로 이 널과 일치 하는 경우를 고려해야합니다 . 대안을 고려하는 것은 물론 대안으로 할 가치가 있지만 부트 스트랩 테스트 방법의 고급 사용이 될 것입니다. θ0
StasK

3

알았어 StasK에게 좋은 답변을 주셔서 감사합니다. 나는 다른 사람들이 배울 수 있도록 받아 들일 것이지만, 나의 특별한 경우에는 매우 간단한 사실이 빠져 있었다.

간단한 1- 표본 평균 검정에 대한 Hall & Wilson 지침에 따른 부트 스트랩 절차는 다음과 같습니다 (R- 영향 의사 코드).

1function(data,θ0 ) {
2 θ^ t.test(data, mu = θ0 )$statistic
3 count 0
4for(i in 1:1000){
5 bdata sample(data)
6 θ^ t.test(bdata, mu = θ^ )$statistic
7 if ( θ^θ^ ) count++
8 }
9 count/1000
10 }

내가 놓친 부분은 이 줄에 "사용" (우리는 참조를 설정했습니다 ).θ02θ^

라인 2에서 6우리는 p.value대신 똑같이 쉽게 사용할 수 있습니다 statistic. 이 경우 우리는 또한 변경해야합니다 에 라인 .7


나는 이전에 upvoted했지만 이것이 실제로 잘못되었음을 깨달았습니다. Hall & Wilson (섹션 2, 278 페이지)에 따르면 는 표시된 통계량이 아니라 추정량입니다 . 이 하는 방식 은 의 재 샘플링 된 분포를 만든 다음 다시 샘플링 된 분포와 비교하여 "극단적"으로 보입니다. θ^θθ0(θ^θ^)(θ^θ0)
절반 패스

1
아마도 도움이 될 것입니다 : Michael Chernick은 여기 관련된 질문에 대한 간결한 직감을 제공했습니다. stats.stackexchange.com/questions/289236/… )
절반 통과
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.