부트 스트랩이 유용한 이유는 무엇입니까?


13

당신이하고있는 모든 것이 경험적 분포로부터 리샘플링하는 것이라면, 왜 경험적 분포를 연구하지 않습니까? 예를 들어 반복 샘플링으로 변동성을 연구하는 대신, 경험적 분포에서 변동성을 정량화하지 않는 이유는 무엇입니까?


6
" (이러한 의미에서) 부트 스트랩 분포는 모수에 대한 (대략적인) 비모수 적, 비 정보 적 사후 분포를 나타냅니다. 그러나이 부트 스트랩 분포는 공식적으로 사전을 지정하거나 사후 분포에서 샘플링하지 않고도 고통없이 얻을 수 있습니다. 우리는 부트 스트랩 배포를 "가난한"베이 즈 후부로 생각할 수 있습니다. "Hastie et al. 통계 학습의 요소 "
섹션

8
경험적 분포로부터 추정치의 불확실성을 어떻게 정량화 할 것인가?
usεr11852

2
"가벼운 규칙 성 조건 하에서 부트 스트랩은 추정기 또는 검정 통계량의 분포에 대한 근사값을 산출합니다.이 통계량은 1 차 점근 론 이론에서 얻은 근사값보다 정확합니다." unc.edu/~saraswat/teaching/econ870/fall11/JH_01.pdf .
jbowman

10
당신은 이해하려고 노력하지 않고 논쟁하고 있습니다. 저를 믿으십시오. 부트 스트랩은 수십 년 동안 수천 명의 통계 학자와는 가치가 없다는 것을 깨닫지 못했습니다. 인용문을주의 깊게 읽지 않았습니다. 통계에서 무작위성 역할의 핵심 역할을 파악하지 못했다고 생각합니다. "왜 귀찮게 !!" " 의 분포를 얻는 것은 매우 드문 일입니다. 추정치의 분포를 이해하는 것이 중요하지 않다고 생각되는 경우 통계 필드가 존재하는 이유를 고려할 수 있습니다 전혀 생각하고 다시 생각하십시오T(X)
jbowman

4
"각 샘플하게되면, @ztyh 당신은 말할 에 당신의 분포 얻을 "을. 아마도 이것에 대해 생각해야 할 것입니다. 단일 점 를 어떻게 매핑 합니까? 또는 그 문제에 대한 모든 기능 . T ( X ) T ( X ) X i T ( X ) = ˉ X T ( X 1 , X 2 , X n )XT(X)T(X)XiT(X)=X¯T(X1,X2,Xn)
knrumsey

답변:


18

부트 스트랩 (또는 다른 리샘플링)은 통계 분포를 추정하는 실험적 방법입니다.

이 방법은 매우 간단하고 쉬운 방법입니다 (원하는 통계량의 추정값을 구하기 위해 표본 데이터의 여러 랜덤 변형을 사용하여 계산한다는 의미입니다).

'이론적 / 분석적'표현이 구하기 / 계산 하기 가 너무 어려울 때 (혹은 aksakal처럼 때로는 알려지지 않음) 가장 많이 사용합니다 .

  • 예 1 : pca 분석을 수행 하고 변수에 상관 관계가 없다는 가설을 고려하여 결과를 '고유 값 편차 추정치'비교하려는 경우.

    데이터를 여러 번 스크램블하고 pca 고유 값을 다시 계산하여 고유 값에 대한 분포 (샘플 데이터를 사용한 임의 테스트 기반)를 얻을 수 있습니다.

    현재의 관행은 scree plot에서 응시하고 특정 고유 값이 중요 / 중요한지 여부를 '결정'하기 위해 경험적 규칙을 적용합니다.

  • 예 2 : 비선형 회귀 y ~ f (x)를 수행하여 함수 f에 대한 일부 매개 변수 추정치를 제공합니다. 이제 해당 매개 변수 의 표준 오류를 알고 자합니다 .

    OLS에서와 같이 잔차와 선형 대수에 대한 간단한 설명은 여기에서 불가능합니다. 그러나 쉬운 방법은 잔차 / 오류를 다시 스크램블링하여 동일한 회귀 분석을 여러 번 계산하여 모수가 어떻게 변하는 지 알 수 있습니다 (오류 항의 분포를 관측 된 잔차로 모델링 할 수 있음).


StackExchangeStrike에 의해 작성


2
나는 당신의 예가 부트 스트랩이 아니라고 생각합니다. 알려진 null 분포에서 샘플링 한 것입니다. 부트 스트랩은 하나의 샘플이 있고 해당 샘플에서 반복적으로 다시 샘플링하는 위치입니다.
ztyh

3
귀하의 질문에 샘플의 분산을 계산한다고 상상해보십시오. 실제로는 단순하고 부트 스트랩이 필요하지 않습니다. 이 예에서는 표본에서 파생 된 값이있는 상황에 대해 이야기합니다. 그런 다음 더 이상 분산을 계산할 수는 없지만 그 차이를 알고 싶습니다. 데이터를 여러 번 스크램블하고 pca 고유 값을 다시 계산하면 샘플의 분포를 따르는 분포 (임의의) 데이터를 얻을 수 있습니다. 내가 잘못 아니에요 경우이 되는 부트 스트랩했다.
Sextus Empiricus

좋아, 내가 오해했던 곳을 봤어 당신의 예는 말이됩니다. 감사.
ztyh

8

핵심은 부트 스트랩이 실제로 데이터 분포의 특징을 파악하는 것이 아니라 데이터 에 적용된 추정기의 특징을 파악하는 것 입니다.

경험적 분포 함수와 같은 것은 데이터가 나온 CDF의 상당히 좋은 추정치를 말해 줄 것입니다. 이것은 부트 스트랩을 사용하여 대답하는 질문입니다.


1
(비모수 적) 부트 스트랩을 사용하여 "데이터 분포"를 찾는 것은 웃음 일 것입니다. 이는 단순히 분석가가 시작한 일련의 데이터 인 경험적 분포 함수와 함께 나옵니다. "X를 풀고" "X = X"를 찾을 때 대학 대수를 상기시킵니다.
AdamO

3

기본 분포가 무엇인지 정확히 알고 있다면이를 연구 할 필요가 없습니다. 때로는 자연 과학에서 분포를 정확히 알고 있습니다.

분포의 유형을 알고 있으면 모수를 추정하고 원하는 의미로 연구하면됩니다. 예를 들어 언젠가 기초 분포가 정상이라는 선험을 알고 있습니다. 어떤 경우에는 그 의미가 무엇인지조차 알 수 있습니다. 따라서 일반적으로 표준 편차 만 알아낼 수 있습니다. 표본으로부터 표본 표준 편차를 얻고, 분포를 연구 할 수 있습니다.

분포가 무엇인지 모르지만 분포가 목록에있는 몇 가지 중 하나라고 생각하면 해당 분포를 데이터에 맞추고 가장 적합한 분포를 선택할 수 있습니다. 그런 다음 그 분포를 연구합니다.

마지막으로, 당신은 종종 당신이 다루는 배포 유형을 모른다. 그리고 R이 데이터에 적합 할 수있는 20 개의 분포 중 하나에 속한다고 믿을 이유가 없습니다. 당신은 무엇을 할 것입니까? 좋아, 평균 및 표준 편차를 봅니다. 그러나 매우 비뚤어진 경우 어떻게해야합니까? 첨도가 매우 큰 경우 어떻게해야합니까? 등등. 당신은 정말로 배급의 모든 순간을 알고 그것을 연구해야합니다. 따라서이 경우 비 파라 메트릭 부트 스트랩이 편리합니다. 당신은 그것을 많이, 간단한 샘플을 가정하지 않고 순간과 다른 속성을 연구합니다.

비모수 적 부트 스트랩은 마법의 도구가 아니지만 문제가 있습니다. 예를 들어, 편향 될 수 있습니다. 파라 메트릭 부트 스트랩은 편견이 없다고 생각합니다


1
실제 분포를 모르더라도 많은 순간을 쉽게 계산할 수 있다고 생각합니다. 따라서 문제는 다루는 배포 유형을 모르는 것이 아니라고 생각합니다. 오히려 당신이 공부하려는 통계의 종류에 관한 것입니다. 일부 통계는 계산하기 어려울 수 있으며 부트 스트랩이 유용합니다.
ztyh

usεr11852에 대한 질문에 대한 의견에서와 같이, 실제로 통계의 계산
성과

사실 나는 여전히 생각할 필요가 없다고 생각합니다. 각 샘플을 매핑합니다 . 그런 다음 Quantile을 찾는 것은 다시 한 줄 코드입니다. 총 2 줄의 코드입니다. ln(x3+x)
ztyh

1
Quantile은 어리석은 예였습니다. 대신 의미를 시도하십시오. 내 연습에서 또는 더 복잡한 함수 를 예측해야합니다. 여기서 는 알려지지 않은 관절 분포입니다. 최종 예측의 속성을 얻어야합니다. 잠시 후에 시도하십시오. 부트 스트랩을 사용하는 것은 결코 쉬운 일이 아닙니다. f ( x , z ) x , zxzf(x,z)x,z
Aksakal

1
얼마나 복잡한 지 , 와 의 샘플 을 매핑하기 만하면 됩니다. 그런 다음 매핑 된 샘플을 연구하십시오. 부트 스트랩을 사용할 수 있다면, 이것이 가능하다는 것을 의미하며 훨씬 쉬워집니다.x z f ( x , z )fxzf(x,z)
ztyh
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.