부트 스트랩 샘플의 평균 대 샘플의 통계


18

샘플샘플부트 스트랩 샘플 이 안정적인 (예 : 평균)라고 가정합니다. 우리 모두 알고 있듯이,이 부트 스트랩 샘플 은 통계량 추정기의 샘플링 분포추정 합니다 .χ

이제이 부트 스트랩 표본 의 평균이 원래 표본통계량 보다 모집단 통계량 의 더 나은 추정치 입니까? 어떤 조건에서 그러한 상황이 발생합니까?


2
부트 스트랩 샘플 의 평균은 샘플 의 평균 이므로이 경우 부트 스트랩 샘플 필요하지 않습니다.
시안

1
감사합니다 @ Xi'an 나는 확실하지 않습니다. 부트 스트랩 샘플의 평균은 샘플의 평균과 수치 적으로 다를 수 있습니다. 둘이 여전히 이론적으로 동등하다고 말하려고합니까? 양쪽에서 확인할 수 있습니까?
Amelio Vazquez-Reina

2
"부트 스트랩 샘플"은 데이터에서 대체 할 특정 샘플을 참조하거나 이러한 샘플이 하나의 실현으로 간주되는 (다변량) 랜덤 변수 를 나타낼 수 있습니다. 실현 평균이 데이터 평균과 다를 수 있다는 것이 맞지만 @ Xi'an은 확률 변수 ( 평균적으로 모집단 평균부트 스트랩 추정치)의 평균 이 일치해야 한다는 보다 관련성있는 관찰을 제공 합니다. 데이터의 평균과 함께.
whuber

1
그러면 귀하의 질문은 stats.stackexchange.com/questions/126633/… 과 거의 동일합니다 . 유일한 차이점은 부트 스트랩 샘플 구현이 겹칠 수 있다는 것입니다. 그러나 답변에 제공된 분석은 동일한 결과로 부트 스트랩 상황으로 쉽게 넘어갑니다.
whuber

1
부트 스트랩에는 하나의 "대체가있는 서브 세트"가 있지만 사용자가 말한 것처럼 실현이 겹칠 수 있지만 @whuber 연결을 참조하십시오. 부트 스트랩에서 재 샘플을 얻는 데 사용 된 분포 (예 : 의사 난수)도 부트 스트랩 샘플의 추정치 바이어스에 영향을 줄 수 있다고 생각합니다. 아마도 모든 실제적인 문제에 대해 그 차이는 무시할 수있을 것입니다. 조건, 미묘함, 실제의 차이 등이 바로 그 질문입니다.
Amelio Vazquez-Reina

답변:


19

문제의 핵심에 집중하기 위해 일반화합시다. 나는 가장 작은 세부 사항을 철자하여 의심 할 여지가 없습니다. 분석에는 다음이 필요합니다.

  1. 숫자 집합 z 1 , , z m산술 평균 은 다음과 같이 정의됩니다.z1,,zm

    1m(z1++zm).
  2. 기대는 선형 연산자입니다. 즉, 이 임의의 변수이고 α i 가 숫자 인 경우 선형 조합에 대한 기대치는 기대치의 선형 조합입니다.Zi,i=1,,mαi

    E(α1Z1++αmZm)=α1E(Z1)++αmE(Zm).

하자 샘플 수 ( B (1) , ... , B에 K ) 데이터 집합으로부터 얻어지는 X = ( X 1 , ... , X의 N ) 복용에 의한 k 값 으로부터 균일 요소 X 여분으로. m ( B )B 의 산술 평균 이라고하자 . 이것은 임의의 변수입니다. 그때B(B1,,Bk)x=(x1,,xn)kxm(B)B

E(m(B))=E(1k(B1++Bk))=1k(E(B1)++E(Bk))

기대의 선형성에 따른다. 이후의 요소 모두 동일한 방식으로 수득되며, 모두 동일한 기대 가질 B 발언권 :Bb

E(B1)==E(Bk)=b.

이것은 앞서 말한 것을 단순화합니다

E(m(B))=1k(b+b++b)=1k(kb)=b.

정의에 따르면, 예상은 확률 가중 값의 합입니다. 각 값은 1 / n 의 동일한 기회 가 선택 되었다고 가정하기 때문에 ,X1/n

E(m(B))=b=E(B1)=1nx1++1nxn=1n(x1++xn)=x¯,

데이터의 산술 평균.

질문에 답하기 위해 데이터 평균 를 사용하여 모집단 평균을 추정하면 부트 스트랩 평균 ( k = n 인 경우 )도 ˉ x 와 같으 므로 모집단 평균의 추정치와 동일합니다 .x¯k=nx¯


데이터의 선형 함수가 아닌 통계의 경우 동일한 결과가 반드시 유지되는 것은 아닙니다. 그러나 단순히 데이터의 통계 값 대신 부트 스트랩 평균을 대체하는 것은 잘못입니다. 이는 부트 스트랩이 작동하는 방식이 아닙니다. 대신, 부트 스트랩 평균과 데이터 통계를 비교하여 통계편향 에 대한 정보를 얻습니다 . 이를 통해 원래 통계를 조정 하여 편향을 제거 할 수 있습니다 . 이와 같이, 편향 보정 된 추정치는 원래 통계와 부트 스트랩 평균의 대수 조합이된다. 자세한 내용은 "BCa"(바이어스 수정 및 가속 부트 스트랩) 및 "ABC"를 찾아보십시오. Wikipedia 는 몇 가지 참고 자료를 제공합니다.


부트 스트랩 평균의 기대치가 데이터 평균과 같다는 것을 의미합니까? 부트 스트랩 평균 자체는 (원본) 데이터 샘플에 의해 결정되지 않습니다.
capybaralet

@ user2429920 부트 스트랩 평균은 표본에 의해 결정된 통계량입니다. 이런 의미에서 샘플 평균과 동일합니다. 샘플링 분포의 의미에서 기대됩니다. 대체를 통해 반복 서브 샘플링을 통해 부트 스트랩 평균을 계산하는 프로세스 와는 다른 의미로 "예상"을 사용하고있을 것으로 생각 됩니다.
whuber

1
나는 마지막 문단이이 질문에 대한 실제 답이라고 생각합니다. 일반적인 통계에 초점을 두는 것이 아니라 일반적입니다. 나는 OP가했던 것과 같은 의심을 가지고 있었고 BCa의 존재를 알지 못했다. 이 답변의 데모가 나에게 도움이되지는 않았지만 (평균을 내 통계로 사용하지는 않습니다) 마지막 단락은 문제의 요점에 대해 매우 분명했습니다. 시안의 대답은 평균 통계가 사용되는 경우도 마찬가지라고 믿습니다. 감사합니다!
가브리엘

1
@Gabriel 좋은 지적. 나는 기록을 확인했다 : 편집하기 전에이 질문은 원래 평균에 대해서만 물었다 . 그렇기 때문에 답변이 해당 통계에 초점을 맞춘 것으로 보입니다.
whuber

9

부트 스트랩 분포는 다음과 같이 정의되어 있기 때문에 F N ( X ) = 1 부트 스트랩 분포의 평균은 E F N [ X ] = 1

F^n(x)=1ni=1nIXixXiiidF(x),
(당신이있는 경우)이 기대, 즉, 무작위 추첨 평균의 시뮬레이션 버전을 구현할 때,이 근사 몬테 카를로 변동성이E F N[X]이지만, 평균 (실험적 평균의 추정치)과 부트 스트랩 시뮬레이션 수가 무한대로 증가 할 때의 한계는 모두 정확히 ˉ X n입니다.
EF^n[X]=1ni=1nXi=X¯n
EF^n[X]X¯n

2
+1 이것은 원래 쓰고 싶었던 답변이지만 일부 독자에게는 너무 불투명 할 수도 있습니다. 그럼에도 불구하고 나는 그것이 그렇게 우아하게 제시된 것을 보게되어 기쁘다. 그러나 마지막 문장에서 당신이 무엇을 의미하는지 잘 모르겠습니다. 여기서 시뮬레이션 된 근사치의 "예상"을 "제한"과 평균으로 구별하는 것처럼 보입니다. )에 제한이 없습니다.
whuber

@ whuber : 의견을 보내 주셔서 감사합니다. 귀하의 답변과 동시에 정확한 답변을 작성하여 죄송합니다! 부트 스트랩의 초보자는 확실히 설명을 읽을 수 있습니다. 나는 마지막 문장을 수정했는데, 그 제한 부분은 많은 수의 법칙입니다.
시안

3
마지막 문장에서 "평균"을 사용하는 것은 상당히 모호합니다! 나는 당신의 LLN 단서에서 그것을 알아 냈습니다. 부트 스트랩 분포의 유한 시뮬레이션의 경우 시뮬레이션의 각 샘플은 자체 평균을 생성합니다 ( "평균"의 한 가지 의미가 있음). 주어진 시뮬레이션에서 모든 샘플의 평균은 시뮬레이션 평균을 생성합니다 (또 다른 의미가 있습니다). 시뮬레이션 크기가 커지면 부트 스트랩 평균 (세 번째 의미) 인 시뮬레이션 평균이 상수로 수렴되며 이는 샘플 평균 (네 번째 의미)과 같습니다. (그리고 이것은 인구 평균 -다섯 번째 의미를 추정합니다 !)
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.