부트 스트랩 개념에 대해 방금 배웠으며, 데이터의 많은 부트 스트랩 샘플을 항상 생성 할 수 있다면 더 많은 "실제"데이터를 얻는 것이 귀찮은 이유는 무엇입니까?
설명이 있다고 생각합니다. 정확한지 알려주십시오. 부트 스트래핑 프로세스는 분산을 줄인다고 생각합니다.하지만 원래 데이터 세트가 BIASED 인 경우 복제본의 수에 관계없이 낮은 분산과 높은 바이어스에 갇힌 것보다 내가 챙길거다.
부트 스트랩 개념에 대해 방금 배웠으며, 데이터의 많은 부트 스트랩 샘플을 항상 생성 할 수 있다면 더 많은 "실제"데이터를 얻는 것이 귀찮은 이유는 무엇입니까?
설명이 있다고 생각합니다. 정확한지 알려주십시오. 부트 스트래핑 프로세스는 분산을 줄인다고 생각합니다.하지만 원래 데이터 세트가 BIASED 인 경우 복제본의 수에 관계없이 낮은 분산과 높은 바이어스에 갇힌 것보다 내가 챙길거다.
답변:
부트 스트랩은 모집단 분포에 대한 모수 적 형태를 가정 할 필요가없는 방식으로 추론을 수행하는 방법입니다. 원래 샘플을 대체하여 샘플링하는 샘플을 포함하더라도 모집단 인 것처럼 원래 샘플을 처리하지 않습니다. 크기가 n 인 표본을 모아서 원래 크기의 표본을 대신하여 샘플링하면 더 큰 모집단에서 크기가 n 인 표본을 취한다고 가정합니다. 또한 m <n 인 크기 n의 샘플에서 m 시간을 재 샘플링하는 n 부트 스트랩의 m과 같은 많은 변형이 있습니다. 부트 스트랩의 좋은 속성은 점근 론에 달려 있습니다. 다른 사람들이 언급했듯이 부트 스트랩에는 원래 샘플에 제공된 것보다 인구에 대한 더 많은 정보가 포함되어 있지 않습니다. 이런 이유로 때때로 작은 샘플에서는 잘 작동하지 않습니다.
2007 년 Wiley에서 출판 한 저의 책 "Bootstrap Methods : A Practitioners Guide"제 2 판에서 부트 스트랩이 실패 할 수있는 상황을 지적합니다. 여기에는 유한 모멘트가없는 분포, 작은 표본 크기, 분포에서 극단적 인 값 추정 및 모집단 크기가 N이고 큰 표본 n이 취해지는 측량 표본 추출의 분산 추정이 포함됩니다. 어떤 경우에는 부트 스트랩의 변형이 원래 방식보다 더 잘 작동 할 수 있습니다. 이것은 일부 응용 프로그램에서 n 부트 스트랩 m 개에서 발생합니다. 판별 분석에서 오류율을 추정하는 경우 632 부트 스트랩은 다른 부트 스트랩 방법을 포함한 다른 방법보다 개선되었습니다.
그것을 사용하는 이유는 때로는 매개 변수 가정에 의존 할 수 없으며 경우에 따라 부트 스트랩이 다른 비모수 적 방법보다 더 잘 작동하기 때문입니다. 비선형 회귀, 분류, 신뢰 구간 추정, 바이어스 추정, p- 값 조정 및 시계열 분석을 포함한 다양한 문제에 적용 할 수 있습니다.