부트 스트랩의 장단점


11

부트 스트랩 개념에 대해 방금 배웠으며, 데이터의 많은 부트 스트랩 샘플을 항상 생성 할 수 있다면 더 많은 "실제"데이터를 얻는 것이 귀찮은 이유는 무엇입니까?

설명이 있다고 생각합니다. 정확한지 알려주십시오. 부트 스트래핑 프로세스는 분산을 줄인다고 생각합니다.하지만 원래 데이터 세트가 BIASED 인 경우 복제본의 수에 관계없이 낮은 분산과 높은 바이어스에 갇힌 것보다 내가 챙길거다.


4
부트 스트랩 은 이미 데이터 (및 모델)에있는 것보다 더 많은 정보를 생성하지 않습니다 . 실제 데이터는 더 많은 정보를 제공 할 수 있습니다.
Glen_b -Reinstate Monica

2
Glen_b는 더 많은 정보를 생성하지 않지만 더 적은 정보를 줄 수 있다는 데 동의하지 않습니다. 내 대답에서 말했듯이 항상 제대로 작동하지는 않지만 모든 통계적 방법에 대해 말할 수 있습니다.
Michael R. Chernick

1
흥미로운 질문-아마도 관련 개념이 부트 스트랩이 작동하는 이유는 무엇입니까? . 이것을 이해하면 언제 유용한 지 알 수 있습니다. 부트 스트랩은 샘플링 분포의 정규 근사치보다 개선 된 것으로 생각했습니다. 너무 극단적이지 않은 정규성에서 벗어나는 것을 처리 할 수 ​​있습니다. 또 다른 매력적인 기능은 분석 / 대수 작업을 수행 할 필요가 없다는 것입니다. 복제가이를 수행합니다.
probabilityislogic

답변:


15

부트 스트랩은 모집단 분포에 대한 모수 적 형태를 가정 할 필요가없는 방식으로 추론을 수행하는 방법입니다. 원래 샘플을 대체하여 샘플링하는 샘플을 포함하더라도 모집단 인 것처럼 원래 샘플을 처리하지 않습니다. 크기가 n 인 표본을 모아서 원래 크기의 표본을 대신하여 샘플링하면 더 큰 모집단에서 크기가 n 인 표본을 취한다고 가정합니다. 또한 m <n 인 크기 n의 샘플에서 m 시간을 재 샘플링하는 n 부트 스트랩의 m과 같은 많은 변형이 있습니다. 부트 스트랩의 좋은 속성은 점근 론에 달려 있습니다. 다른 사람들이 언급했듯이 부트 스트랩에는 원래 샘플에 제공된 것보다 인구에 대한 더 많은 정보가 포함되어 있지 않습니다. 이런 이유로 때때로 작은 샘플에서는 잘 작동하지 않습니다.

2007 년 Wiley에서 출판 한 저의 책 "Bootstrap Methods : A Practitioners Guide"제 2 판에서 부트 스트랩이 실패 할 수있는 상황을 지적합니다. 여기에는 유한 모멘트가없는 분포, 작은 표본 크기, 분포에서 극단적 인 값 추정 및 모집단 크기가 N이고 큰 표본 n이 취해지는 측량 표본 추출의 분산 추정이 포함됩니다. 어떤 경우에는 부트 스트랩의 변형이 원래 방식보다 더 잘 작동 할 수 있습니다. 이것은 일부 응용 프로그램에서 n 부트 스트랩 m 개에서 발생합니다. 판별 분석에서 오류율을 추정하는 경우 632 부트 스트랩은 다른 부트 스트랩 방법을 포함한 다른 방법보다 개선되었습니다.

그것을 사용하는 이유는 때로는 매개 변수 가정에 의존 할 수 없으며 경우에 따라 부트 스트랩이 다른 비모수 적 방법보다 더 잘 작동하기 때문입니다. 비선형 회귀, 분류, 신뢰 구간 추정, 바이어스 추정, p- 값 조정 및 시계열 분석을 포함한 다양한 문제에 적용 할 수 있습니다.


6

부트 스트랩 샘플은 원본 샘플에 대한 정보 만 제공 할 수 있으며 실제 모집단에 대한 새로운 정보는 제공하지 않습니다. 이는 신뢰 구간 및 유사한 구성을위한 비모수 적 방법입니다.

모집단에 대한 추가 정보를 얻으려면 모집단에서 더 많은 데이터를 수집해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.