평균을 추정하는 데 필요한 샘플 수의 동적 계산


9

샘플링을 통해 다소 가우시안 분포의 평균을 추정하려고합니다. 그 평균이나 분산에 대한 사전 지식이 없습니다. 각 샘플은 획득하기에 비싸다. 특정 수준의 신뢰 / 정확성을 얻기 위해 필요한 샘플 수를 동적으로 결정하려면 어떻게해야합니까? 또는 샘플 채취를 중단 할 수있는 시점을 어떻게 알 수 있습니까?

내가 찾을 수있는 이와 같은 질문에 대한 모든 대답은 분산에 대한 약간의 지식을 추정하는 것처럼 보이지만 그 과정에서도 그 사실을 찾아야합니다. 다른 사람들은 여론 조사에 주력하고 있으며, 일반화가 어떻게 일반화되는지 명확하지 않습니다. 내 평균이 [0,1] 등이 아닙니다.

나는 이것이 잘 알려진 대답을 가진 간단한 질문이라고 생각하지만 내 Google-fu가 실패합니다. 검색 대상을 알려주는 것만으로도 도움이 될 것입니다.


CW로 표시 한 이유는 무엇입니까? 질문은 하나의 정답 을 얻을 수있을 정도로 구체적 으로 보이므로 CW가되어서는 안됩니다.

1
@ josh 괜찮습니다. 당신의 선택이 궁금했습니다.

1
Google "적응 샘플링"및 "순차 샘플링". 여전히 문제가 해결되지 않으면 키워드로 "Wald"를 포함시킨 다음 역사적으로 진행하십시오 (즉, 순차적 샘플링에 대한 Wald의 연구를 참조하는 논문을보고 해당 논문을 참조하는 논문 등).
whuber

1
@Robby McKilliam :하지만 어떤 데이터를 사용하십니까? 이 질문은 데이터가 수집되기 전에 발생합니다. 한 번에 하나씩 값을 수집하고 각각의 새로운 값이 데이터 세트에 추가 된 후 CI를 계산하는 경우 상관 관계가있는 다중 비교로 인해 구간에 표준 공식을 사용할 수 없습니다. 따라서 추정기의 통계 위험과 각 추가 샘플 수집 비용의 합계를 최적화 하는 중지 규칙 이 필요합니다 .
whuber

1
@whuber 감사합니다! 나는 여전히 물질을 소화하고 있지만 이것이 내가 찾고있는 것이라고 생각합니다. 이것이 답변이라면, 나는 그것을 받아 들일 것입니다 ...
Josh Bleecher Snyder

답변:


2

'Bayesian adaptive designs'를 검색해야합니다. 기본 아이디어는 다음과 같습니다.

  1. 관심있는 매개 변수에 대한 이전을 초기화합니다.

    데이터를 수집하기 전에 우선 순위가 분산됩니다. 추가 데이터가 들어 오면 '이전 시점까지의 사전 + 데이터'에 해당하는 사후로 사전을 재설정하십시오.

  2. 데이터를 수집하십시오.

  3. 데이터 + 사전을 기반으로 후부를 계산하십시오. 실제로 추가 데이터를 수집하는 경우 1 단계에서 이전으로 사용됩니다.

  4. 정지 기준이 충족되는지 평가

    중지 기준에는 95 % 신뢰할 수있는 간격과 같은 매개 변수 가 단위 보다 크지 않아야합니다 . 또한 관심 모수와 관련된보다 공식적인 손실 함수를 갖고 관심 모수에 대한 사후 분포와 관련하여 예상 손실을 계산할 수 있습니다.±ϵ

그런 다음 4 단계의 중지 기준이 충족 될 때까지 1, 2 및 3 단계를 반복하십시오.


0

일반적으로 중앙 제한 정리를 호출하려면 30 이상이 필요합니다 (이는 다소 임의적 임). 이항 분포를 사용하여 모델링 된 폴링 등의 경우와 달리 가우스 프로세스로 정확도를 보장하는 샘플 크기를 미리 결정할 수는 없습니다. 이는 잔차에 따라 다르며 표준 오차를 결정합니다.

강력한 샘플링 전략이있는 경우 전략이 좋지 않은 경우 훨씬 큰 표본 크기보다 훨씬 정확한 결과를 얻을 수 있습니다.


3
알려진 가우스 분포에서 샘플링 할 때 CLT를 호출해야하는 이유는 무엇입니까? 하나의 표본도 평균은 정규 분포입니다!
whuber

좋은 지적! RTQ가 제대로되지 않았습니다.
제임스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.