당신이하고있는 모든 것이 경험적 분포로부터 리샘플링하는 것이라면, 왜 경험적 분포를 연구하지 않습니까? 예를 들어 반복 샘플링으로 변동성을 연구하는 대신, 경험적 분포에서 변동성을 정량화하지 않는 이유는 무엇입니까?
당신이하고있는 모든 것이 경험적 분포로부터 리샘플링하는 것이라면, 왜 경험적 분포를 연구하지 않습니까? 예를 들어 반복 샘플링으로 변동성을 연구하는 대신, 경험적 분포에서 변동성을 정량화하지 않는 이유는 무엇입니까?
답변:
부트 스트랩 (또는 다른 리샘플링)은 통계 분포를 추정하는 실험적 방법입니다.
이 방법은 매우 간단하고 쉬운 방법입니다 (원하는 통계량의 추정값을 구하기 위해 표본 데이터의 여러 랜덤 변형을 사용하여 계산한다는 의미입니다).
'이론적 / 분석적'표현이 구하기 / 계산 하기 가 너무 어려울 때 (혹은 aksakal처럼 때로는 알려지지 않음) 가장 많이 사용합니다 .
예 1 : pca 분석을 수행 하고 변수에 상관 관계가 없다는 가설을 고려하여 결과를 '고유 값 편차 추정치' 와 비교하려는 경우.
데이터를 여러 번 스크램블하고 pca 고유 값을 다시 계산하여 고유 값에 대한 분포 (샘플 데이터를 사용한 임의 테스트 기반)를 얻을 수 있습니다.
현재의 관행은 scree plot에서 응시하고 특정 고유 값이 중요 / 중요한지 여부를 '결정'하기 위해 경험적 규칙을 적용합니다.
예 2 : 비선형 회귀 y ~ f (x)를 수행하여 함수 f에 대한 일부 매개 변수 추정치를 제공합니다. 이제 해당 매개 변수 의 표준 오류를 알고 자합니다 .
OLS에서와 같이 잔차와 선형 대수에 대한 간단한 설명은 여기에서 불가능합니다. 그러나 쉬운 방법은 잔차 / 오류를 다시 스크램블링하여 동일한 회귀 분석을 여러 번 계산하여 모수가 어떻게 변하는 지 알 수 있습니다 (오류 항의 분포를 관측 된 잔차로 모델링 할 수 있음).
핵심은 부트 스트랩이 실제로 데이터 분포의 특징을 파악하는 것이 아니라 데이터 에 적용된 추정기의 특징을 파악하는 것 입니다.
경험적 분포 함수와 같은 것은 데이터가 나온 CDF의 상당히 좋은 추정치를 말해 줄 것입니다. 이것은 부트 스트랩을 사용하여 대답하는 질문입니다.
기본 분포가 무엇인지 정확히 알고 있다면이를 연구 할 필요가 없습니다. 때로는 자연 과학에서 분포를 정확히 알고 있습니다.
분포의 유형을 알고 있으면 모수를 추정하고 원하는 의미로 연구하면됩니다. 예를 들어 언젠가 기초 분포가 정상이라는 선험을 알고 있습니다. 어떤 경우에는 그 의미가 무엇인지조차 알 수 있습니다. 따라서 일반적으로 표준 편차 만 알아낼 수 있습니다. 표본으로부터 표본 표준 편차를 얻고, 분포를 연구 할 수 있습니다.
분포가 무엇인지 모르지만 분포가 목록에있는 몇 가지 중 하나라고 생각하면 해당 분포를 데이터에 맞추고 가장 적합한 분포를 선택할 수 있습니다. 그런 다음 그 분포를 연구합니다.
마지막으로, 당신은 종종 당신이 다루는 배포 유형을 모른다. 그리고 R이 데이터에 적합 할 수있는 20 개의 분포 중 하나에 속한다고 믿을 이유가 없습니다. 당신은 무엇을 할 것입니까? 좋아, 평균 및 표준 편차를 봅니다. 그러나 매우 비뚤어진 경우 어떻게해야합니까? 첨도가 매우 큰 경우 어떻게해야합니까? 등등. 당신은 정말로 배급의 모든 순간을 알고 그것을 연구해야합니다. 따라서이 경우 비 파라 메트릭 부트 스트랩이 편리합니다. 당신은 그것을 많이, 간단한 샘플을 가정하지 않고 순간과 다른 속성을 연구합니다.
비모수 적 부트 스트랩은 마법의 도구가 아니지만 문제가 있습니다. 예를 들어, 편향 될 수 있습니다. 파라 메트릭 부트 스트랩은 편견이 없다고 생각합니다