나는 이것이 실제로 간단한 대답을 할 수없는 다소 화제가되는 주제라는 것을 알고 있습니다. 그럼에도 불구하고 다음과 같은 접근 방식이 유용하지 않은지 궁금합니다.
부트 스트랩 방법은 표본이 원래 모집단과 동일한 분포를 어느 정도 따르거나 정확하게 읽는 경우에만 유용합니다. 확실하게하기 위해 샘플 크기를 충분히 크게 만들어야합니다. 그러나 충분히 큰 것은 무엇입니까?
내 전제가 맞다면 중앙 한계 정리를 사용하여 모집단 평균을 결정할 때도 같은 문제가 있습니다. 표본 크기가 충분히 클 때만 표본 평균 모집단이 정규 분포 (집단 평균 주위)로 분포되어 있는지 확인할 수 있습니다. 다시 말해, 표본은 모집단 (분포)을 충분히 나타내야합니다. 그러나 다시, 충분히 큰 것은 무엇입니까?
필자의 경우 (관리 프로세스 : 요구를 완료하는 데 필요한 시간 대 요구량) 나는 다중 모달 분포 (2011 년에 완료 된 모든 요구 사항)가있는 인구를 가지고 있으며 99 %는 훨씬 적습니다. 일반적으로 인구보다 분산되어 있습니다 (현재와 과거의 하루 사이에 완료되는 모든 요구, 이상적으로이 기간은 가능한 한 작습니다).
내 2011 인구 는 표본 크기 n 의 표본 을 만들기에 충분한 단위를 가지고 있습니다. x 값을 선택하고 10 ( x = 10 ) 이라고 가정하십시오 . 이제 시행 착오를 사용하여 좋은 표본 크기를 결정합니다. 나는 취하고 Kolmogorov-Smirnov를 사용하여 표본 평균 모집단이 정상적으로 분포되어 있는지 확인합니다. 그렇다면 동일한 단계를 반복하지만 샘플 크기는 ( 예 : 샘플 크기는 등)으로 반복하지 않습니다 .40 60
잠시 후, 나는 2011 년 인구를 어느 정도 잘 표현하기 위해 가 절대 최소 표본 크기 라고 결론을 내 렸습니다 . 관심있는 인구 (현재와 과거의 하루 사이에 완료 된 모든 요구 사항)가 분산이 적다는 것을 알고 있기 때문에 부트 스트랩에 표본 크기 를 안전하게 사용할 수 있습니다 . (간접적으로 는 내 시간 범위의 크기를 결정합니다 . 요구 를 완료하는 데 필요한 시간 입니다.)n = 45 n = 45 45
요컨대 이것은 내 생각이다. 그러나 나는 통계학자가 아니기 때문에 저술의 시대에 통계 교훈을 얻은 엔지니어이기 때문에 많은 쓰레기를 만들 가능성을 배제 할 수는 없습니다 :-). 너희들은 어떻게 생각하니? 내 전제가 의미가 있다면, 보다 크 거나 작은 를 선택해야 합니까? 귀하의 답변에 따라 (당황 스러울 필요가 있습니까? :-) 더 많은 토론 아이디어를 게시 할 것입니다.10
첫 번째 답변에 대한 답변 답변 해 주셔서 감사합니다. 귀하의 답변은 특히 도서 링크에 매우 유용했습니다.
그러나 나는 정보를 제공하려는 시도에서 내 질문이 완전히 흐려져서 두렵습니다. 부트 스트랩 샘플이 모집단 샘플의 분포를 대신한다는 것을 알고 있습니다. 나는 당신을 완전히 따르지만 ...
원래 모집단 표본은 모집단 표본의 분포가 모집단의 '실제'분포와 같거나 같아 질 정도로 적당히 확신 할 수있을 정도로 커야합니다.
이는 표본 분포가 모집단 분포와 일치하는지 합리적으로 확신하기 위해 원래 표본 크기가 얼마나 큰지를 결정하는 방법에 대한 아이디어 일뿐입니다.
바이 모달 인구 분포가 있고 하나의 상단이 다른 상단보다 훨씬 크다고 가정합니다. 표본 크기가 5 인 경우 5 개 단위 모두 큰 상단에 매우 가까운 값을 가질 가능성이 큽니다 (임의로 단위를 임의로 그릴 확률이 가장 큼). 이 경우 샘플 분포는 단일 모드로 보입니다.
샘플 크기가 100이면 샘플 분포가 바이 모달 일 확률도 훨씬 더 큽니다! 부트 스트랩의 문제점은 하나의 샘플 만 있고 해당 샘플을 추가로 빌드한다는 것입니다. 표본 분포가 실제로 모집단 분포와 일치하지 않으면 문제가있는 것입니다. 이는 표본 크기를 무한정 크게 만들 필요없이 '불량한 표본 분포'를 가능한 한 낮게 만들 수있는 아이디어입니다.