부트 스트랩 방법 / 제안 방법에 필요한 샘플 크기 결정


33

나는 이것이 실제로 간단한 대답을 할 수없는 다소 화제가되는 주제라는 것을 알고 있습니다. 그럼에도 불구하고 다음과 같은 접근 방식이 유용하지 않은지 궁금합니다.

부트 스트랩 방법은 표본이 원래 모집단과 동일한 분포를 어느 정도 따르거나 정확하게 읽는 경우에만 유용합니다. 확실하게하기 위해 샘플 크기를 충분히 크게 만들어야합니다. 그러나 충분히 큰 것은 무엇입니까?

내 전제가 맞다면 중앙 한계 정리를 사용하여 모집단 평균을 결정할 때도 같은 문제가 있습니다. 표본 크기가 충분히 클 때만 표본 평균 모집단이 정규 분포 (집단 평균 주위)로 분포되어 있는지 확인할 수 있습니다. 다시 말해, 표본은 모집단 (분포)을 충분히 나타내야합니다. 그러나 다시, 충분히 큰 것은 무엇입니까?

필자의 경우 (관리 프로세스 : 요구를 완료하는 데 필요한 시간 대 요구량) 나는 다중 모달 분포 (2011 년에 완료 된 모든 요구 사항)가있는 인구를 가지고 있으며 99 %는 훨씬 적습니다. 일반적으로 인구보다 분산되어 있습니다 (현재와 과거의 하루 사이에 완료되는 모든 요구, 이상적으로이 기간은 가능한 한 작습니다).

내 2011 인구 는 표본 크기 n 표본 을 만들기에 충분한 단위를 가지고 있습니다. x 값을 선택하고 10 ( x = 10 ) 이라고 가정하십시오 . 이제 시행 착오를 사용하여 좋은 표본 크기를 결정합니다. 나는 취하고 Kolmogorov-Smirnov를 사용하여 표본 평균 모집단이 정상적으로 분포되어 있는지 확인합니다. 그렇다면 동일한 단계를 반복하지만 샘플 크기는 ( 예 : 샘플 크기는 등)으로 반복하지 않습니다 .엑스엑스10엑스=1040 60=504060

잠시 후, 나는 2011 년 인구를 어느 정도 잘 표현하기 위해 가 절대 최소 표본 크기 라고 결론을 내 렸습니다 . 관심있는 인구 (현재와 과거의 하루 사이에 완료 된 모든 요구 사항)가 분산이 적다는 것을 알고 있기 때문에 부트 스트랩에 표본 크기 를 안전하게 사용할 수 있습니다 . (간접적으로 는 내 시간 범위의 크기를 결정합니다 . 요구 를 완료하는 데 필요한 시간 입니다.)n = 45 n = 45 45=45=45=4545

요컨대 이것은 내 생각이다. 그러나 나는 통계학자가 아니기 때문에 저술의 시대에 통계 교훈을 얻은 엔지니어이기 때문에 많은 쓰레기를 만들 가능성을 배제 할 수는 없습니다 :-). 너희들은 어떻게 생각하니? 내 전제가 의미가 있다면, 보다 크 거나 작은 를 선택해야 합니까? 귀하의 답변에 따라 (당황 스러울 필요가 있습니까? :-) 더 많은 토론 아이디어를 게시 할 것입니다.10엑스10

첫 번째 답변에 대한 답변 답변 해 주셔서 감사합니다. 귀하의 답변은 특히 도서 링크에 매우 유용했습니다.
그러나 나는 정보를 제공하려는 시도에서 내 질문이 완전히 흐려져서 두렵습니다. 부트 스트랩 샘플이 모집단 샘플의 분포를 대신한다는 것을 알고 있습니다. 나는 당신을 완전히 따르지만 ...

원래 모집단 표본은 모집단 표본의 분포가 모집단의 '실제'분포와 같거나 같아 질 정도로 적당히 확신 할 수있을 정도로 커야합니다.

이는 표본 분포가 모집단 분포와 일치하는지 합리적으로 확신하기 위해 원래 표본 크기가 얼마나 큰지를 결정하는 방법에 대한 아이디어 일뿐입니다.

바이 모달 인구 분포가 있고 하나의 상단이 다른 상단보다 훨씬 크다고 가정합니다. 표본 크기가 5 인 경우 5 개 단위 모두 큰 상단에 매우 가까운 값을 가질 가능성이 큽니다 (임의로 단위를 임의로 그릴 확률이 가장 큼). 이 경우 샘플 분포는 단일 모드로 보입니다.

샘플 크기가 100이면 샘플 분포가 바이 모달 일 확률도 훨씬 더 큽니다! 부트 스트랩의 문제점은 하나의 샘플 만 있고 해당 샘플을 추가로 빌드한다는 것입니다. 표본 분포가 실제로 모집단 분포와 일치하지 않으면 문제가있는 것입니다. 이는 표본 크기를 무한정 크게 만들 필요없이 '불량한 표본 분포'를 가능한 한 낮게 만들 수있는 아이디어입니다.

답변:


38

부트 스트랩이라는 단어를보고 부트 스트랩에 관한 책을 썼기 때문에이 질문에 관심이있었습니다. 또한 사람들은 종종 "부트 스트랩 결과에 대해 좋은 몬테카를로 근사치를 얻기 위해 얼마나 많은 부트 스트랩 샘플이 필요합니까?"라고 묻습니다. 그 질문에 대한 나의 제안 된 대답은 수렴 할 때까지 크기를 계속 늘리는 것입니다. 모든 문제에 맞는 숫자는 없습니다.

원래 샘플에서. 부트 스트랩 원칙의 보유 여부는 개별 표본 "인구를 대표하는"에 의존하지 않습니다. 그것이 의존하는 것은 추정하는 것과 인구 분포의 일부 속성입니다 (예를 들어, 이것은 유한 분산을 갖는 모집단 분포를 사용하지만 샘플링이 무한 분산을 갖는 것은 아닙니다). 인구 분포에 관계없이 극단을 추정하는 데는 효과가 없습니다.

부트 스트랩 이론은 추정치의 일관성을 보여줍니다. 따라서 이론적으로는 큰 샘플에서 작동한다는 것을 알 수 있습니다. 그러나 작은 샘플에서도 작동 할 수 있습니다. 나는 이변 량 데이터의 경우 20과 같은 작은 표본 크기에서 분류 오류율 추정에 특히 효과적이라는 것을 알았습니다.

이제 샘플 크기가 매우 작은 경우 (예 : 4) 부트 스트랩 샘플 세트가 풍부하지 않아 부트 스트랩이 작동하지 않을 수 있습니다. 필자의 책이나 Peter Hall의 책에서 너무 작은 표본 크기의이 문제에 대해 설명합니다. 그러나이 고유 한 부트 스트랩 샘플 수는 매우 빠르게 커집니다. 따라서 샘플 크기가 8 인 경우에도 문제가되지 않습니다. 다음 참조를 살펴볼 수 있습니다.


3
충분하지 않은지 (예 : 4 개의 샘플) 확인하기 위해 실행할 표준 테스트가 있습니까? 평균에 대한 부트 스트랩 신뢰 구간을 계산하는 데이터 세트가 있지만 일부 개인의 데이터 포인트는 매우 적습니다 (어떤 경우에는 8 미만). 내 본능은 데이터 포인트가 n 미만인 개인을 무시해야한다고 말하지만이 컷오프를 어떻게 정의합니까? 나는 일반적으로 허용되는 컷오프 값을 찾고 싶었습니다 (혼합 모델 분석에서 그룹 당 샘플 수에 대한 임의 컷오프 지점 6 또는 7과 유사합니다).
RTbecard

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.