부트 스트랩 된 재 샘플에서 얻은 신뢰 구간의 의미는 무엇입니까?


38

이 사이트에서 부트 스트래핑 및 신뢰 구간에 대한 수많은 질문을 살펴 봤지만 여전히 혼란스러워합니다. 혼란의 이유 중 하나는 아마도 많은 지식을 이해하기에 통계 지식이 충분하지 않기 때문일 것입니다. 나는 입문 통계 과정의 중간 쯤에 있고 수학 수준은 대수 II 중반에 불과하므로 그 수준을 넘어서는 것은 혼란 스럽습니다. 이 사이트의 지식이 풍부한 사람 중 한 명이 내 수준에서이 문제를 설명 할 수 있다면 매우 도움이 될 것입니다.

우리는 수업 시간에 부트 스트랩 방법을 사용하여 리샘플링을 수행하는 방법을 배우고이를 사용하여 측정하려는 통계량에 대한 신뢰 구간을 구축했습니다. 예를 들어, 대규모 모집단에서 표본을 추출하여 40 %가 후보 A에 투표한다고 응답한다고 가정합니다.이 표본은 원래 모집단을 정확하게 반영한 것으로 가정합니다. 인구에 대해 뭔가를 발견합니다. 따라서 우리는 재 샘플링을 수행하고 결과 신뢰 구간의 범위가 35 %에서 45 %임을 발견합니다 (95 % 신뢰 수준 사용).

내 질문은,이 신뢰 구간은 실제로 무엇을 의미 합니까?

나는 (자주 주의자) 신뢰 구간과 (바이에른) 믿을만한 구간에 차이가 있다는 것을 계속 읽습니다. 내가 제대로 이해한다면, 신뢰할 수있는 간격에있는 95 %의 가능성이 있다는 말을 우리의 상황 신뢰 구간은 95 %에 있음이 있다는 말을하면서 true 매개 변수가 지정된 간격 (35 % -45 %) 내에는, 이 상황 유형 (특히 상황에 따라 반드시 필요한 것은 아님)에서 사용하는 방법은 실제 매개 변수가 지정된 간격 내에 있음을 정확하게보고합니다.

이 정의가 정확하다고 가정하면 내 질문은 다음과 같습니다. 부트 스트랩 방법을 사용하여 구축 된 신뢰 구간을 사용할 때 말하는 "참 매개 변수"는 무엇입니까? (a) 최초 모집단 의 실제 모수 또는 (b) 표본 의 실제 모수를 언급하고 있습니까? 만약 (a)라면 부트 스트랩 방법이 95 %의 시간이 원래 모집단에 대한 실제 진술을 정확하게보고 할 것이라고합니다. 하지만 어떻게 알 수 있습니까? 전체 부트 스트랩 방법이 가정 에 있지 않습니까?원래의 표본이 채취 한 모집단을 정확하게 반영한 것입니까? (b) 그렇다면 신뢰 구간의 의미를 전혀 이해하지 못합니다. 샘플의 실제 매개 변수를 아직 모르십니까? 간단한 측정입니다!

나는 이것을 선생님과 이야기했고 그녀는 매우 도움이되었습니다. 하지만 여전히 혼란 스러워요.

답변:


28

부트 스트랩 절차와 신뢰 구간 형성이 올바르게 수행 되었다면 다른 신뢰 구간과 동일 함을 의미합니다. 빈번한 관점에서, 95 % CI는 전체 연구가 동일하게 무한정 반복 될 경우, 이러한 방식으로 형성된 그러한 신뢰 구간의 95 %가 실제 값을 포함한다는 것을 의미합니다. 물론 연구 또는 주어진 개별 연구에서 신뢰 구간에는 실제 값이 포함되거나 포함되지 않지만 어느 것을 알지 못할 것입니다. 이러한 아이디어를 더 이해하려면 여기에서 내 대답을 읽는 데 도움이 될 수 있습니다. 왜 95 % 신뢰 구간 (CI)이 95 %의 평균을 포함 할 가능성을 의미하지 않습니까?

x¯μ. 수학에 대한 간단한 설명을 위해 다음을 사용하여 다음 시뮬레이션을 고려하십시오 R.

# a function to perform bootstrapping
boot.mean.sampling.distribution = function(raw.data, B=1000){
  # this function will take 1,000 (by default) bootsamples calculate the mean of 
  # each one, store it, & return the bootstrapped sampling distribution of the mean

  boot.dist = vector(length=B)     # this will store the means
  N         = length(raw.data)     # this is the N from your data
  for(i in 1:B){
    boot.sample  = sample(x=raw.data, size=N, replace=TRUE)
    boot.dist[i] = mean(boot.sample)
  }
  boot.dist = sort(boot.dist)
  return(boot.dist)
}

# simulate bootstrapped CI from a population w/ true mean = 0 on each pass through
# the loop, we will get a sample of data from the population, get the bootstrapped 
# sampling distribution of the mean, & see if the population mean is included in the
# 95% confidence interval implied by that sampling distribution

set.seed(00)                       # this makes the simulation reproducible
includes = vector(length=1000)     # this will store our results
for(i in 1:1000){
  sim.data    = rnorm(100, mean=0, sd=1)
  boot.dist   = boot.mean.sampling.distribution(raw.data=sim.data)
  includes[i] = boot.dist[25]<0 & 0<boot.dist[976]
}
mean(includes)     # this tells us the % of CIs that included the true mean
[1] 0.952

우리는 어느 특정한 가정에 의존하고 있습니까?
iarwain

2
감사. 그 스레드에 대한 두 번째 답변에서 내가 찾은 것을 찾았다 고 생각합니다. "모집 평균을 추정하기 위해 부트 스트랩 샘플의 수단을 사용하지 않는다는 점을 기억하십시오. 그러나 부트 스트랩 샘플을 사용하여 샘플링 프로세스의 속성 (확산, 바이어스)을 추정하고 알고있는 모집단 (관심있는 모집단을 대표하기를 희망)의 샘플링을 사용하여 샘플링의 효과를 이해합니다. 훨씬 덜 원형입니다. " ...
iarwain

1
다시 말해, 모든 CI는 우리와 거의 비슷한 모집단에서 그 모집단에서 추출한 표본의 95 %가 실제 값 +/- 오차 한계를 반영 할 것이라고 기대합니다. 따라서 우리가하고있는 모든 것은 표본 통계량이 실제 모집단 모수에 얼마나 가까운 지에 대한 아주 거친 단서를 제공하는 것입니다. 그렇다면 CI의 정확한 숫자를 너무 심각하게 받아들이지 말아야 할 것처럼 들립니다. "샘플 통계는 아마도이 정도 정도로 대략 정확할 것입니다." 내가 알았어?
iarwain

1
본질적으로 맞습니다. CI는 우리에게 견적의 정확성에 대한 감각을 제공하지만 실제 (실현 된) CI에 실제 값이 포함되어 있는지는 알 수 없습니다. 기본 가정은 데이터가 관심있는 인구를 대표한다는 것입니다. 이들 중 어느 것도 부트 스트랩 된 CI에만 해당되지 않으며 , 점근 론을 통해 계산 된 CI에서 동일한 해석 및 가정을합니다.
gung-복직 모니카

1
이것은 훌륭한 설명입니다. 나는 "진정한 가치"가 때때로 연구 설계의 인공물이라는 것을 덧붙일 것입니다. 정치 후보에 대한 폴링에서 계층화 된 표본은 임의 표본보다 훨씬 정확하고 신뢰할 수있는 추정치를 제공합니다. 비용은 의도적으로 잘못된 그룹을 오버 샘플링 할 위험이 있습니다. 이 경우, 95 % CI가 올바른 값, 연구 복제하여 달성하는 하나의 중심으로 무한히 하지만 값은 true 매개 변수의 다른 의미되지 않습니다 : 우리는 매개 변수를 원하는 추정 할 수 있습니다. 이것이 연구 설계와 추론이 본질적으로 연결되어있는 이유입니다.
AdamO

0

당신이 말하는 것은 부트 스트랩 된 리 샘플에서 신뢰 구간을 찾을 필요가 없다는 것입니다. 부트 스트랩 된 재 샘플에서 얻은 통계량 (샘플 평균 또는 샘플 비율)에 만족하는 경우 신뢰 구간을 찾지 않으므로 해석 할 필요가 없습니다. 그러나 부트 스트랩 된 재 샘플에서 얻은 통계에 만족하지 않거나 만족하지만 여전히 신뢰 구간을 찾으려면 해당 신뢰 구간에 대한 해석은 다른 신뢰 구간과 동일합니다. 부트 스트랩 된 리샘플링이 원래 모집단을 정확하게 나타내거나 가정 할 때, 그렇다면 신뢰 구간이 필요한 곳은 어디입니까? 부트 스트랩 된 재 샘플의 통계는 원래 모집단 모수 자체이지만 통계를 원래 모집단 모수로 고려하지 않으면 신뢰 구간을 찾아야합니다. 그래서 그것은 당신이 어떻게 생각하는지에 관한 것입니다. 부트 스트랩 된 재 샘플에서 95 % 신뢰 구간을 계산했다고 가정 해 보겠습니다. 이제 해석은 "시간의 95 %,이 부트 스트랩 방법은 실제 모집단 모수를 포함하는 신뢰 구간을 정확하게 생성합니다".

(이것은 내가 생각하는 것입니다. 실수가 있으면 수정하십시오).


-1

우리는 원래 인구의 진정한 매개 변수를 말합니다. 데이터가 원래 모집단에서 무작위로 추출되었다고 가정하면 가능합니다.이 경우 부트 스트랩 절차가 적어도 데이터 세트의 크기가 충분히 커지면 부트 스트랩 절차가 유효한 신뢰 구간을 제공한다는 것을 보여주는 수학적 주장이 있습니다. .


왜 작동하는지 이해하려면 수학 증거를 따르는 데 충분한 수학을 알아야합니다. 그 맞습니까?
iarwain

나는 그렇게 생각한다 (나는 증거에 익숙하지 않다)
Gareth

직관적으로, 표본 크기가 커짐에 따라 표본은 모집단과 비슷하게 보이기 시작합니다. 예를 들어, 주어진 평균과 분산으로 정규 분포에서 백만 개의 표본을 추출한다고 가정합니다. 이 표본을 X라고합니다. X에서 추출한 임의 표본 (대체 포함)은 원래 분포에서 추출한 임의 표본과 매우 유사합니다. 이것이 이것이 왜 작동하는지에 대한 기본 아이디어라고 생각합니다.
Gareth
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.