가장 직관적 인 사례를 제공하기 위해 가장 간단한 사례를 다루겠습니다. 은 k 개의 결과 를 갖는 이산 분포의 iid 표본 이라고하자 . π 1 , … , π k 를 각 특정 결과의 확률 이라고합시다 . 카이 제곱 통계량의 (점근) 분포에 관심이 있습니다.
X 2 = k ∑ i = 1 ( S i - n π i ) 2X1,X2,…,Xnkπ1,…,πk
여기서 n π i 는 i 번째 결과의 예상 카운트 수입니다.
X2=∑i=1k(Si−nπi)2nπi.
nπii
암시적인 휴리스틱
정의 이므로X2=∑iU 2 i =”U” 2 2 여기서U=(U1,…,Uk).Ui=(Si−nπi)/nπi−−−√X2=∑iU2i=∥U∥22U=(U1,…,Uk)
이후 인 B 나 N ( N , π I ) , 다음으로 중심 극한 정리 ,
T는 난 = U I을SiBin(n,πi)
따라서, 또한, 그이 U 난 거라고 → N ( 0 , 1 - π I ) .
Ti=Ui1−πi−−−−−√=Si−nπinπi(1−πi)−−−−−−−−−√→dN(0,1),
Ui→dN(0,1−πi)
이제 경우 있었다 (점근) 독립적 인 (그렇지 않은하는), 우리는 주장 할 수
Σ는 I T 2 내가 점근 적이었다 χ 2 k는 분산. 그러나 T k 는 ( T 1 , … , T k - 1 ) 의 결정 론적 함수 이므로 T i 변수는 독립적 일 수 없습니다.Ti∑iT2iχ2kTk(T1,…,Tk−1)Ti
그러므로 우리는 어떻게 든 그들 사이의 공분산을 고려해야합니다. 그것은이 작업을 수행하기 위해 "올바른"방법은 사용하는 것으로 나타났다 대신을, 그리고 구성 요소 사이의 공분산 U는 또한 우리가 생각했다있을 수 있습니다 무엇에서 점근 적 분포를 변경 χ 2 K , 사실, 무엇을을 a χ 2 k - 1 .UiUχ2kχ2k−1
이에 대한 자세한 내용은 다음과 같습니다.
보다 엄격한 치료
실제로 C o v ( U i , U j ) = − √ 인지 확인하기는 어렵지 않습니다.
Cov(Ui,Uj)=−πiπj−−−−√i≠j
U
A=I−π−−√π−−√T,
π−−√=(π1−−√,…,πk−−√). Note that
A is symmetric and idempotent, i.e.,
A=A2=AT. So, in particular, if
Z=(Z1,…,Zk) has iid standard normal components, then
AZ∼N(0,A). (
NB The multivariate normal distribution in this case is
degenerate.)
Now, by the Multivariate Central Limit Theorem, the vector U has
an asymptotic multivariate normal distribution with mean 0 and
covariance A.
So, U has the same asymptotic distribution as AZ, hence, the same asymptotic distribution of
X2=UTU is the same as the distribution of ZTATAZ=ZTAZ by the continuous mapping theorem.
But, A is symmetric and idempotent, so (a) it has orthogonal
eigenvectors, (b) all of its eigenvalues are 0 or 1, and (c)
the multiplicity of the eigenvalue of 1 is rank(A). This means that A can be decomposed as A=QDQT where Q is orthogonal and D is a diagonal matrix with rank(A) ones on the diagonal and the remaining diagonal entries being zero.
Thus, ZTAZ must be χ2k−1 distributed since
A has rank k−1 in our case.
Other connections
The chi-square statistic is also closely related to likelihood ratio
statistics. Indeed, it is a Rao score statistic and can be viewed as a
Taylor-series approximation of the likelihood ratio statistic.
References
This is my own development based on experience, but obviously influenced by classical texts. Good places to look to learn more are
- G. A. F. Seber and A. J. Lee (2003), Linear Regression Analysis, 2nd ed., Wiley.
- E. Lehmann and J. Romano (2005), Testing Statistical Hypotheses, 3rd ed., Springer. Section 14.3 in particular.
- D. R. Cox and D. V. Hinkley (1979), Theoretical Statistics, Chapman and Hall.