필요한 표본 크기, 분산 추정 정확도를 계산합니까?


17

배경

분포를 알 수없는 변수가 있습니다.

500 개의 샘플이 있지만 분산을 계산할 수있는 정밀도 (예 : 500의 샘플 크기가 충분 함)를 보여주고 싶습니다. 또한 정밀도 의 분산을 추정하는 데 필요한 최소 샘플 크기를 알고 싶습니다 X%.

질문

계산하는 방법

  1. 표본 크기가 인 경우 분산 추정치의 정밀도는 n=500? 의 n=N ?
  2. 정밀도 분산을 추정하는 데 필요한 최소 샘플 수를 어떻게 계산할 수 X있습니까?

500 개의 샘플을 기반으로 한 매개 변수의 그림 1 밀도 추정치.

여기에 이미지 설명을 입력하십시오

그림 2 다음은 500 개 샘플의 하위 샘플을 사용하여 계산 한 y 축의 x 축 대 분산 추정치에 대한 샘플 크기의 플롯입니다. 아이디어는 n이 증가함에 따라 추정치가 실제 분산으로 수렴한다는 것입니다. .

그러나 대한 분산을 추정하는 데 사용 된 표본 n[10,125,250,500]이 서로 독립적이 아니거나 n [ 20 , 40 , 80 에서 분산을 계산하는 데 사용 된 표본이 아니기 때문에 추정값은 독립적으로 유효하지 않습니다 . ]n[20,40,80]

여기에 이미지 설명을 입력하십시오


알 수없는 분포의 구성 요소가 Cauchy 분포 인 경우 분산은 정의되지 않습니다.
Mike Anderson

@ 마이크 또는 실제로 다른 배포판의 수는 무한합니다.
Glen_b-복귀 모니카

답변:


10

iid 랜덤 변수 X1,,Xn 경우 분산 s2 (분모가 분모)에 대한 편견 추정값은 다음 과 n1같습니다.

Var(s2)=σ4(2n1+κn)

여기서 는 분포의 초과 첨도입니다 (참고 : Wikipedia ). 이제 분포의 첨도를 추정해야합니다. 때때로 γ 2 ( Wikipedia ) 로 설명되는 수량을 사용할 수 있습니다 .κγ2

γ2=μ4σ43

나는 가정 것이다 당신이 사용하는 경우 에 대한 추정치로 σγ 2 에 대한 추정치로 κ 당신이 합리적인 견적을 얻을, V R ( S 2 ) 나는 그것이 편견임을 보증 표시되지 않지만,. 합리적으로 500 데이터 포인트의 하위 집합 간의 분산과 일치하는지, 더 이상 걱정하지 않으면 :)sσγ2κVar(s2)


편향되지 않은 분산 추정값에 대한 교과서 참조가 있습니까? 더 많은 컨텍스트를 위해 Wikipedia에서 어디로 가야할지 모르겠습니다.
Abe

표준 텍스트 라이스 가 나와 있지 않으므로 페이지 번호를 확인할 수 없지만 페이지 번호가 확실합니다. Wikipedia는 Montgomery, DC 및 Runger, GC : 엔지니어대한 통계 및 확률 적용 , 페이지 201 에서 언급해야한다고 제안합니다. John Wiley & Sons New York, 1994.
Erik P.

도와 주셔서 감사합니다. 이 답변은 매우 유용했으며 분산 불확실성을 정량화하는 데 도움이되었습니다. 마지막 날 약 10 회 방정식을 적용했습니다. 도서관 에서 계산 하는 것은 쉽습니다 : kappamomentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Abe

Rice 텍스트에서 페이지 번호를 찾은 적이 있습니까? Casella와 Berger에서 찾을 수 없습니다. 기본 참조를 알고 있으면 더 좋습니다. 위키 백과 페이지는 특히 참조되지 않습니다.
Abe

흠 ... 밥도 공식이없는 것 같습니다. 나는 그것을 주시 할 것이지만,이 시점에서 나는 전혀 언급이 없다.
Erik P.

15

분산을 배우는 것은 어렵습니다.

많은 경우에 분산을 잘 추정하기 위해서는 (아마 놀랍게도) 많은 수의 샘플이 필요합니다. 아래에서는 iid 일반 샘플의 "정규"사례에 대한 개발을 보여 드리겠습니다.

가정 , = 1 , ... , n은 독립적으로 N ( μ , σ 2 ) 랜덤 변수. 구간의 너비가 다음과 같이 분산에 대해 100 ( 1 - α ) % 신뢰 구간을 찾습니다.Yii=1,,nN(μ,σ2)100(1α)% , 즉 폭이점 추정치의 100 ρ % 가. 예를 들어, ρ = 1 / 2 인 경우 CI의 너비는 점 추정치의 절반입니다 (예 :ρs2100ρ%ρ=1/2 이면 CI는 ( 8 ,s2=10너비가 5 인 13 ) . 점 추정치 주변의 비대칭도 주목하십시오. ( s 2 는 분산에 대한 편견 추정치입니다.)(8,13)s2

대한 "The"(대신 "a") 신뢰 구간 은 ( n - 1 ) s 2s2 여기서 χ (2)

(n1)s2χ(n1)2(1α/2)σ2(n1)s2χ(n1)2(α/2),
는자유도가n-1 인카이 제곱 분포의β분위수입니다. (이것은χ(n1)2ββn1 가 가우스 설정에서 중추적 수량합니다.)(n1)s2/σ2

너비를 최소화하여 그래서 우리는 대한 해결하기 위해 남아있는 N

L(n)=(n1)s2χ(n1)2(α/2)(n1)s2χ(n1)2(1α/2)<ρs2,
n 되도록
(n1)(1χ(n1)2(α/2)1χ(n1)2(1α/2))<ρ.

99 % 신뢰 구간의 경우 ρ에 대해 를 얻습니다.n=65 n에ρ=1 에 대한 ρ = 0.1 . 이 마지막 경우는 간격을 산출한다 (정지를!) 10 % 분산의 점 추정 한 크게.n=5321ρ=0.1

선택한 신뢰 수준이 99 % 미만인 경우 더 낮은 값에 대해 동일한 너비 간격을 얻습니다 . 그러나 n 은 여전히 ​​생각했던 것보다 클 수 있습니다.nn

표본 크기의 도표 비례 폭 ρ n로그 로그 스케일에서 점근 적으로 선형으로 보이는 것을 보여줍니다. 다시 말해 권력 법과 같은 관계입니다. 우리는이 권력 법 관계의 힘을 (거의) 다음과 같이 추정 할 수 있습니다.nρ

α^log0.1log1log5321log65=log10log5231650.525,

불행히도 결정적으로 느립니다!


이것은 "정식"사례의 일종으로 계산 방법에 대한 느낌을줍니다. 플롯을 기준으로 데이터가 특히 정상적이지 않습니다. 특히, 눈에 띄는 왜곡이있는 것으로 보입니다.

그러나 이것은 무엇을 기대해야하는지에 대한 간단한 아이디어를 제공해야합니다. 위의 두 번째 질문에 답하려면 먼저 신뢰 수준을 먼저 수정해야합니다. 여기에서는 데모 목적으로 위의 개발에서 99 %로 설정했습니다.


이것은 내 질문에 아주 좋은 대답입니다. 그러나 대한 계산을 따르더라도 n | ρ 위한 유닛 경우 정확하게 내게 분명하지 않다 R의 시간 O는 용액 중의 퍼센트 N = 65 에 대한 ρ < 1 ; 수행 "이 평균 ρ 미만이고 1 × 2 또는" " ρ 미만 1 %S 2 ?n|ρrhon=65ρ<1ρ1×s2ρ1%s2
아베

@Abe, 프로세스에서 업데이트되고 희망적으로 설명되었습니다. 이전 버전에서는 특히 오타가 하나있었습니다. 미안합니다.
추기경

아주 좋은 대답이지만 @Erik에서 내 대답에 더 적합하기 때문에 @Erik에서 하나를 선택했습니다 (매개 변수가 정상적으로 분포되어 있지 않기 때문에).
Abe

@ 아베 : 문제 없습니다. 이것이 체크 표시가있는 것입니다. 내 대답은 무엇보다 설명하기위한 것이 었습니다. 내가 말할 수있는 건, 않습니다 아직 주소가있는 유일한 하나가 될 것으로 보인다 모두 도 시나리오가 에릭의 윤곽에 수정 질문에, 그리고 (점근)입니다. (1 년 전 그에게 +1). :
추기경

당신은 정확하고 나는 지금 당신의 대답을 다시 방문하게 된 것을 기쁘게 생각합니다. @Erik의 일반 계산을 사용했지만 이제는 일반 솔루션의 가치를 봅니다. 또한 SD 대신 CI를 제시하면 분산의 분산이 무엇인지 이해하지 못하고 형식의 통계를 볼 때 청중이 혼란스러워하는 문제를 해결할 수 있습니다. 그래서 이야 [ 리터 의 C (L)을 , U C L ] 다른 통계적 요약이보다 명확하고 일관성있게한다. 그리고 비대칭 성을 보여주는 것이 도움이 될 것입니다. s(ss)s[lcl,ucl]
Abe

1

더 쉽게 해석 할 수있는 규모이기 때문에 분산보다는 SD에 중점을 둡니다.

사람들은 때때로 SD 또는 분산에 대한 신뢰 구간을 보지만 초점은 일반적으로 수단에 있습니다.

의 분포에 대해 제공 한 결과 는 σ 2 (및 σ )에 대한 신뢰 구간을 얻는 데 사용될 수 있습니다 . 대부분의 소개 수학 / 통계 텍스트는 σ 2 의 분포 가 언급 된 동일한 섹션에서 세부 사항을 제공합니다 . 각 꼬리에서 2.5 % 만 가져갑니다.s2/σ2σ2σσ2


(이 답변은 중복 된 질문으로 인해 여기에 왔으며 다소 다르게
짜여져

1

Greenwood and Sandomire는 1950 JASA 논문에서 다음 솔루션을 제공했습니다.

X1,,XnN(μ,σ2)σ

S=i=1n(XiX¯)2n1,
and you want to control the probability that the relative deviation between S and σ is within a fraction 0<u<1. That is,
Pr{S<(1u)σ}=aandPr{S>(1+u)σ}=b,
in which the significance level γ=1ab.

It follows that

Pr{(n1)S2σ2<(n1)(1u)2}=a
and
Pr{(n1)S2σ2>(n1)(1+u)2}=b.
Since the pivotal quantity (n1)S2/σ2 has χn12 distribution, adding the two probabilities, we find

γ=Fχ(n1)2((n1)(1+u)2)Fχ(n1)2((n1)(1u)2),

and the necessary sample size is found solving the former equation in n for given γ and u.

R code.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

Output for u=10% and γ=95%.

Sample size n = 193
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.