Whither 부트 스트랩-누군가 나를 시작할 수있는 간단한 설명을 제공 할 수 있습니까?


9

부트 스트랩에 관한 몇 가지 시도에도 불구하고, 나는 항상 벽돌 벽에 부딪친 것 같습니다. 부트 스트랩에 대해 기술적으로 합리적이지 않은 정의를 줄 수있는 사람이 있는지 궁금합니다.

나는 나를 완전히 이해 할 수 있도록 충분한 정보를 제공하기 위해이 포럼에서 가능하지 알고 있지만 주요 목표 및 부트 스트랩의 메커니즘을 올바른 방향으로 부드럽게 밀어가 될 것이다 많은 감사합니다! 감사.

답변:


8

부트 스트랩의 Wikipedia 항목은 실제로 매우 좋습니다.

http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29

부트 스트랩이 적용되는 가장 일반적인 이유는 표본을 추출하는 기본 분포의 형태를 알 수없는 경우입니다. 전통적으로 통계 학자들은 정규 분포 (중앙 한 정리 정리와 관련하여 아주 좋은 이유로)를 가정하지만 정규 분포 이론을 통해 추정 된 통계 (표준 편차, 신뢰 구간, 거듭 제곱 계산 등)는 기본 모집단 분포가 표준.

부트 스트랩 핑은 샘플 자체를 반복적으로 재 샘플링함으로써 분포에 독립적 인 추정치를 가능하게합니다. 전통적으로 원래 샘플의 각 "리샘플링"은 원래 샘플에서와 동일한 수의 관측 값을 무작위로 선택합니다. 그러나 이들은 대체와 함께 선택됩니다. 표본에 N 개의 관측치가있는 경우, 각 부트 스트랩 재 샘플에는 N 개의 관측치가 있으며 원래 샘플 중 많은 부분이 반복되고 제외됩니다.

관심 파라미터 (예를 들어, 승산 비 등)는 각각의 부트 스트랩 된 샘플로부터 추정 될 수있다. 부트 스트랩을 1000 번 반복하면 2.5, 50 및 97.5 백분위 수를 선택하여 통계에 대한 "중간 값"및 95 % 신뢰 구간 (예 : 승산 비)을 추정 할 수 있습니다.


8

미국 과학자는 최근 Cosma Shalizi 의 부트 스트랩 에 관한 멋진 기사를 읽었으며 이는 상당히 읽기 쉽고 개념을 이해하는 데 필수적인 요소입니다.


7

매우 광범위하게 : 직감과 이름의 기원 ( "부트 스트랩에 의해 스스로를 끌어 당김")은 표본의 속성을 사용하여 모집단에 대한 추론 (통계의 "반대"문제)을 도출한다는 관찰에서 비롯됩니다. 추론), 우리는 잘못을 예상합니다. 해당 오류의 특성을 확인하려면 표본 자체를 모집단으로 취급하고 표본에서 표본을 추출 할 때 추론 절차가 어떻게 작동하는지 연구 하십시오. 즉, "앞으로"문제 : 당신이 당신의 메가 샘플에 대한 모든 알고 ...로서인구와 그것에 대해 아무것도 추측 할 필요가 없습니다. 귀하의 연구는 (a) 귀하의 추론 절차가 편향 될 수있는 정도 및 (b) 절차의 통계적 오류의 크기와 성격을 제안합니다. 따라서이 정보를 사용하여 원래 추정치를 조정하십시오. 많은 (그러나 모든 것은 아님) 상황에서 조정 된 바이어스는 점진적으로 훨씬 낮습니다.

이 도식적 설명에 의해 제공된 통찰력은 부트 스트래핑은 시뮬레이션이나 반복 된 서브 샘플링을 필요로 하지 않는다는 것입니다. 이는 모집단이 알려진 경우 모든 종류의 통계적 절차를 연구하기 위해 계산식으로 옴니버스 일뿐입니다. 수학적으로 계산할 수있는 많은 부트 스트랩 추정치가 있습니다.

이 답변은 Peter Hall의 저서 "The Bootstrap and Edgeworth Expansion"(Springer 1992), 특히 부트 스트랩의 "주요 원칙"에 대한 그의 설명에 기인합니다.


나는이 "원래"접근법을 좋아한다 (다른 항목들). 아직도, 나는 왜 부트 스트랩이 실제로 작동하는지 설명하기가 어렵다 ...
chl

4

부트 스트랩 에 대한 위키 는 다음과 같은 설명을 제공합니다.

부트 스트랩을 사용하면 일반적으로 하나의 샘플에서 계산되는 단일 통계의 많은 대체 버전을 수집 할 수 있습니다. 예를 들어 전 세계 사람들의 키에 관심이 있다고 가정합니다. 모든 모집단을 측정 할 수 없으므로 일부만 샘플링합니다. 이 표본에서 하나의 통계 값, 즉 하나의 평균 또는 하나의 표준 편차 등 만 얻을 수 있으므로 통계가 얼마나 달라지는 지 알 수 없습니다. 부트 스트랩을 사용할 때, N 명의 샘플링 된 데이터에서 n 높이의 새로운 샘플을 무작위로 추출하여 각 사람을 최대 t 회 선택할 수 있습니다. 이 작업을 여러 번 수행함으로써, 우리는 각각의 데이터 세트에 대한 통계를보고 계산할 수있는 많은 데이터 세트를 작성합니다. 따라서 통계 분포의 추정치를 얻습니다.

위의 설명에서 이해하지 못하는 부분을 명확히 할 수 있으면 자세한 내용을 알려 드리겠습니다.


4

모집단에서 임의의 표본 데이터 세트를 얻는 경우 해당 표본은 소스 모집단의 특성과 거의 비슷한 특성을 가질 것입니다. 따라서 분포의 특정 기능, 예를 들어 왜도에 대한 신뢰 구간을 얻는 데 관심이있는 경우 표본을 의사 집단으로 취급하여 많은 무작위 의사 표본 집합을 얻을 수 있습니다. 각각의 관심 특징의 가치. 원래 표본이 모집단과 대략 일치한다는 가정은 또한 "대체로"의사 모집단으로부터 표본을 추출하여 의사 표본을 얻을 수 있음을 의미합니다 (예 : 값을 샘플링하고 기록한 다음 다시 넣습니다. 따라서 각 값 여러 번 관찰 될 수 있습니다.).


3

부트 스트랩은 본질적으로 반복 실험의 시뮬레이션입니다. 공의 평균 크기를 얻으려는 공이있는 상자가 있다고 가정 해 봅시다. 그중 일부를 뽑아 측정하고 평균을 취하십시오. 예를 들어 표준 편차를 얻기 위해 분포를 얻기 위해 반복하고 싶지만 누군가 상자를 훔쳤다는 것을 알았습니다.
지금 할 수있는 것은 가지고있는 것을 사용하는 것입니다.이 일련의 측정입니다. 아이디어는 볼을 새 상자에 넣고 동일한 크기의 볼을 가지고 동일한 크기의 볼을 대체하여 동일한 수의 볼을 교체하여 원래 실험을 시뮬레이션하는 것입니다. 이제 이것은 평균 분포를 근사화하는 데 사용될 수있는 일련의 평균을 얻기 위해 여러 번 복제 될 수 있습니다.


3

이것은 부트 스트래핑의 본질입니다. 데이터의 다른 샘플을 취하고, 각 샘플에 대한 통계 (예 : 평균, 중앙값, 상관 관계, 회귀 계수 등)를 얻고, 샘플에 대한 통계의 변동성을 사용하여 통계량에 대한 표준 오차 및 신뢰 구간. - 부트 스트랩 및 R의 부트 패키지

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.