분산에 대한 신뢰 구간을 생성 할 때 카이 제곱이 사용되는 이유는 무엇입니까?


15

이것은 매우 기본적인 질문입니다. 카이 제곱 분포를 사용하는 이유는 무엇입니까? 이 배포판의 의미는 무엇입니까? 이 분포가 분산에 대한 신뢰 구간을 만드는 데 사용되는 이유는 무엇입니까?

내가 설명은 구글 모든 장소는 카이를 사용하는 경우를 설명하지만, 설명하지,이 사실을 제시 하는 이유 카이를 사용하고,이 방법을 보이는 이유는 않습니다.

올바른 방향으로 나를 가리킬 수있는 사람 덕분에 많은 덕분에-분산에 대한 신뢰 구간을 만들 때 왜 chi를 사용하는지 이해합니다.


4
데이터가 정상일 때 =(1)에스2σ2χ12 . (이것은를 중추적 인 수량으로만듭니다)
Glen_b-복지국 Monica

2
stats.stackexchange.com/questions/15711/… 및 해당 링크 도 참조하십시오 .
Nick Cox

1
에 또는 추가 연구의 응용 프로그램에 관심이있는 사람들을 위해 χ2 , 당신은의 차이에 관심을 지불하기를 원할 것입니다 χ2 ( "카이 제곱") 분포와 χ 가있다 ( "카이") 분포 ( 당연히 제곱근 χ2).
whuber

답변:


23

빠른 답변

그 이유는 데이터가 iid 및 이고 ˉ X를 정의 한다고 가정하기 때문입니다.엑스나는(μ,σ2) 신뢰 구간을 형성 할 때, 샘플의 분산 (와 연관된 샘플링 분포S2!, 랜덤 변수 기억)는 카이 제곱 분포이다 ((S)2-(N-1)/σ2~χ2N-1), 표본 평균과 연관된 표본 분포가 표준 정규 분포(ˉXμ) 인것처럼

엑스¯=엑스나는에스2=(엑스¯엑스나는)21
에스2S2(N1)/σ2χn12분산을 아는 경우 n /σZ(0,1),모르는 경우 t- 학생( ˉ Xμ)(X¯μ)n/σZ(0,1) ).(X¯μ)n/STn1

긴 대답

우선, 우리는 증명할 것 와 카이 제곱 분포 다음과 N - 1 개 자유도. 그 후에 분산에 대한 신뢰 구간을 도출 할 때이 증명이 어떻게 유용한 지, 카이 제곱 분포가 어떻게 나타나는지 (그리고 이것이 왜 유용한 지) 알게 될 것입니다. 의 시작하자.S2(N1)/σ2N1

증거

이를 위해이 위키피디아 기사 에서 카이-제곱 분포에 익숙해 져야 할 것 입니다. 이 분포는 하나의 매개 변수를 가지고 자유의도 하고 순간 발생 기능에 의해 주어진다 (MGF)이 일어나는 : m χ 2 ν ( t ) =을 ( 1 - 2 t ) - ν / 2 . 우리가 S 2 ( N - 1 ) / σ 2 의 분포가 이와 같은 모멘트 생성 기능을 가지고 있지만 ν =ν

mχν2(t)=(12t)ν/2.
S2(N1)/σ2 이면 S 2 ( N - 1 ) / σ 2 N - 1 자유 도로카이 제곱 분포를 따르는것으로 나타났습니다. 이것을 보여주기 위해 두 가지 사실에 주목하십시오.ν=N1S2(N1)/σ2N1
  1. 우리가 정의하면 여기서ZiN(0,1), 즉 표준 정규 확률 변수,Y의 모멘트 생성 함수는 m Y (t)로주어진다

    와이=(엑스나는엑스¯)2σ2=나는2,
    나는(0,1)와이Z2 의 MGF는 m Z 2 ( t )로 주어집니다
    미디엄와이()=이자형[이자형와이]=이자형[이자형12]×이자형[이자형22]×...이자형[이자형2]=미디엄나는2()×미디엄22()×...미디엄2().
    2 I는 표준 정규의 PDF 사용한F(Z)=E- (Z) 2 / 2/√을
    mZ2(t)=f(z)exp(tz2)dz=(12t)1/2,
    하고, 따라서, mY(t)=(1-2t) - N / 2 ,것을 의미Y를갖는 카이 제곱 분포 이하N의자유도.f(z)=ez2/2/2π
    mY(t)=(12t)N/2,
    YN
  2. Y1Y2ν1ν2W=Y1+Y2ν1+ν2

N1

(N1)에스2=(엑스¯μ)+(엑스나는μ)2,
σ2
(N1)S2σ2+(X¯μ)2σ2/N=(Xiμ)2σ2.
NS2(N1)/σ2N1

분산에 대한 신뢰 구간 계산

L1L2

P(L1σ2L2)=1α.
S2(N1)
L1S2(N1)σ2S2(N1)L2S2(N1).
S2(N1)/σ2N1
L1S2(N1)σ2S2(N1)S2(N1)σ2S2(N1)L1,σ2S2(N1)L2S2(N1)S2(N1)L2S2(N1)σ2,
P(S2(N1)L2S2(N1)σ2S2(N1)L1)=1α.
S2(N1)/σ2χ2(N1)
S2(N1)L2N1pχ2(x)dx=(1α)/2   ,N1S2(N1)L1pχ2(x)dx=(1α)/2  
(우리는 까지 통합N1 because the expected value of a chi-squared random variable with N1 degrees of freedom is N1) or, equivalently,
0S2(N1)L2pχ2(x)dx=α/2,S2(N1)L1pχ2(x)dx=α/2.
Calling χα/22=S2(N1)L2 and χ1α/22=S2(N1)L1, where the values χα/22 and χ1α/22 can be found in chi-square tables (in computers mainly!) and solving for L1 and L2,
L1=S2(N1)χ1α/22,L2=S2(N1)χα/22.
Hence, your confidence interval for the variance is
C.I.=(S2(N1)χ1α/22,S2(N1)χα/22).

1
Simply because S2 does not follow a centered chi-square distribution, while S2(N1)/σ2 does and, therefore, its easier to work with. Are you asking for a derivation for that? (i.e., you want someone to show you that S2(N1)/σ2 follows a chi-square distribution with N1 degrees of freedom?)
Néstor

4
It would be helpful to modify this answer to include the very strong but unstated assumption that the sample variance follows a chi-squared distribution when the underlying data are independent and follow a normal distribution. Unlike the theory of the distribution of the sample mean, where in practice its sampling distribution will be approximately Normal to reasonable accuracy in many situations, this same asymptotic behavior tends not to happen with the sample variance (until sample sizes become extremely large).
whuber

1
죄송합니다. 그렇습니다. 이것은 실제로 일부 학생들에게 나눠준 문제 해결 방법에서 나 왔으며 여기서 모든 가정에 대해 의문을 제기했습니다. 나는 지금 답을 편집했다.
Néstor

1
@ user34756 우리가 배포를 사용하지 않는 이유 에스2직접 분포는 모수의 값에 따라 달라집니다. 신뢰 구간을 구성 할 때 중추적 수량의 사용을 조사하는 것이 유용 할 수 있습니다.
Glen_b-복지 주 모니카

1
Isn't f(z)=ez2/2 instead of f(z)=ez2 ?
Benoît Legat
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.