카이-제곱 검정이 예상 카운트를 분산으로 사용하는 이유는 무엇입니까?


18

에서 χ2 테스트 정상 분포 각각의 표준 편차 ((가) 편차를 같이 즉 예상 카운트)로 예상 카운트의 제곱근을 사용하기위한 기준은 무엇인가? 내가 이것에 대해 논의 할 수있는 유일한 것은 http://www.physics.csbsju.edu/stats/chi-square.html 이며 포아송 분포를 언급합니다.

혼란을 간단히 설명하기 위해 두 프로세스가 크게 다른지 테스트하는 경우, 하나는 매우 작은 분산으로 500 As 및 500 B를 생성하고 다른 하나는 매우 작은 분산으로 550 As 및 450 B를 생성합니다 (드물게 생성) 551 As 및 449 Bs)? 여기의 편차가 단순히 예상 값이 아닌가?

(나는 통계학자가 아니기 때문에 실제로 비전문가가 접근 할 수있는 답변을 찾고 있습니다.)


이것은 아마도 χk2 랜덤 변수 의 분산 이 2k 라는 사실과 통계에 올바른 분포를 갖기 위해 통계에 2를 곱해야한다는 사실과 관련이 있습니다 (우도 비율 테스트에서와 같이). 아마도 누군가는 이것에 대해 더 공식적으로 알고있을 것입니다.
매크로

답변:


16

많은 테스트 통계의 일반적인 형식은

observedexpectedstandarderror

정규 변수의 경우 표준 오차는 알려진 모집단 분산 (z-stats) 또는 표본 추정치 (t-stats)를 기반으로합니다. 이항의 경우 표준 오차는 비율 (시험에 대한 가설 화 된 비율)을 기준으로합니다.

분할 표에서 각 셀의 개수는 평균이 예상 값 (null 미만) 인 Poisson 분포에서 나온 것으로 생각할 수 있습니다. 포아송 분포의 분산은 평균과 같으므로 표준 오차 계산에도 예상 값을 사용합니다. 대신 관측 값을 사용하는 통계를 보았지만 이론적 인 근거가 적고 분포에 수렴하지 않습니다 .χ2


1
나는 Poisson과의 관계에 갇히고 / 각 셀이 Poisson에서 나온 것으로 생각할 수있는 이유를 이해합니다. 나는 포아송의 평균 / 변동을 알고 있으며, 그것들이 속도가 주어진 사건의 수를 나타냅니다. 또한 카이-제곱 분포는 표준 (분산 1) 법선의 제곱의 합을 나타냅니다. 나는 각 법선의 "확산"을 가정하여 예상 값을 재사용하는 타당성을 중심으로 머리를 감싸려고합니다. 이것은 모든 것이 카이 제곱 분포를 따르고 법선을 "표준화"하는 것입니까?
Yang

3
Poisson 분포는 사물이 상당히 독립적 일 때 카운트에 공통적 인 문제가 있습니다. 테이블에 고정 합계가 있다고 생각하지 않고 테이블 셀간에 값을 분배하는 대신 테이블의 셀 하나만 생각하고 해당 셀에 몇 개의 응답이 있는지 확인하기 위해 일정 시간 동안 대기하고 있습니다. 이것은 포아송 (Poisson)의 일반적인 아이디어와 일치합니다. 일반적으로 정규 분포를 사용하여 포아송을 근사 할 수 있으므로 검정 통계량은 포아송에 대한 정규 근사값으로 이해 한 다음 로 변환합니다 . χ2
Greg Snow

1
(+1) 셀 개수 가 평균 n π i 인 독립 포아송 랜덤 변수 라고 가정합니다 . 그런 다음 확실히 k i = 1 ( X in π i ) 2Xi,,Xknπi 분포입니다. 그러나 이것의 문제점은n매개 변수이며 실제 관측 된 카운트가 아니라는 것입니다. 전체 관찰 개수는N=Σ는 k는 = 1 X를I~POI(N). 비록N/N1거의 확실히 SLLN에 의해, 작업 뭔가 가능한에 발견을 설정하기 위해 수행해야하는 몇 가지 더. i=1k(Xinπi)2nπiχk2nN=i=1kXiPoi(n)N/n1
추기경

혼란을 간단히 설명하기 위해 두 프로세스가 크게 다른지 테스트하는 경우, 하나는 매우 작은 분산으로 500 As 및 500 B를 생성하고 다른 하나는 매우 작은 분산으로 550 As 및 450 B를 생성합니다 (드물게 생성) 551 As 및 449 Bs)? 여기의 편차가 단순히 예상 값이 아닌가?
Yang

1
@ 양 : 설명하지 않은 데이터는 카이 제곱 통계량을 사용하는 모델을 따르지 않는 것 같습니다. 표준 모델은 다항식 샘플링 중 하나입니다 . 엄밀히 말하면 (무조건적인) 포아송 샘플링도 다루지 않습니다. 이것이 그렉의 대답입니다. 나는 이전의 주석에서 이것을 언급 할 수도 있습니다.
추기경

17

가장 직관적 인 사례를 제공하기 위해 가장 간단한 사례를 다루겠습니다. k 개의 결과 를 갖는 이산 분포의 iid 표본 이라고하자 . π 1 , , π k 를 각 특정 결과의 확률 이라고합시다 . 카이 제곱 통계량의 (점근) 분포에 관심이 있습니다. X 2 = k i = 1 ( S i - n π i ) 2X1,X2,,Xnkπ1,,πk 여기서 n π i i 번째 결과의 예상 카운트 수입니다.

X2=i=1k(Sinπi)2nπi.
nπii

암시적인 휴리스틱

정의 이므로X2=iU 2 i =U 2 2 여기서U=(U1,,Uk).Ui=(Sinπi)/nπiX2=iUi2=U22U=(U1,,Uk)

이후 B N ( N , π I ) , 다음으로 중심 극한 정리 , T는 = U I을SiBin(n,πi) 따라서, 또한, 그이 U 거라고 N ( 0 , 1 - π I ) .

Ti=Ui1πi=Sinπinπi(1πi)dN(0,1),
UidN(0,1πi)

이제 경우 있었다 (점근) 독립적 인 (그렇지 않은하는), 우리는 주장 할 수 Σ는 I T 2 내가 점근 적이었다 χ 2 k는 분산. 그러나 T k( T 1 , , T k - 1 ) 의 결정 론적 함수 이므로 T i 변수는 독립적 일 수 없습니다.TiiTi2χk2Tk(T1,,Tk1)Ti

그러므로 우리는 어떻게 든 그들 사이의 공분산을 고려해야합니다. 그것은이 작업을 수행하기 위해 "올바른"방법은 사용하는 것으로 나타났다 대신을, 그리고 구성 요소 사이의 공분산 U는 또한 우리가 생각했다있을 수 있습니다 무엇에서 점근 적 분포를 변경 χ 2 K , 사실, 무엇을을 a χ 2 k - 1 .UiUχk2χk12

이에 대한 자세한 내용은 다음과 같습니다.

보다 엄격한 치료

실제로 C o v ( U i , U j ) = 인지 확인하기는 어렵지 않습니다. Cov(Ui,Uj)=πiπjij

U

A=IππT,
π=(π1,,πk). Note that A is symmetric and idempotent, i.e., A=A2=AT. So, in particular, if Z=(Z1,,Zk) has iid standard normal components, then AZN(0,A). (NB The multivariate normal distribution in this case is degenerate.)

Now, by the Multivariate Central Limit Theorem, the vector U has an asymptotic multivariate normal distribution with mean 0 and covariance A.

So, U has the same asymptotic distribution as AZ, hence, the same asymptotic distribution of X2=UTU is the same as the distribution of ZTATAZ=ZTAZ by the continuous mapping theorem.

But, A is symmetric and idempotent, so (a) it has orthogonal eigenvectors, (b) all of its eigenvalues are 0 or 1, and (c) the multiplicity of the eigenvalue of 1 is rank(A). This means that A can be decomposed as A=QDQT where Q is orthogonal and D is a diagonal matrix with rank(A) ones on the diagonal and the remaining diagonal entries being zero.

Thus, ZTAZ must be χk12 distributed since A has rank k1 in our case.

Other connections

The chi-square statistic is also closely related to likelihood ratio statistics. Indeed, it is a Rao score statistic and can be viewed as a Taylor-series approximation of the likelihood ratio statistic.

References

This is my own development based on experience, but obviously influenced by classical texts. Good places to look to learn more are

  1. G. A. F. Seber and A. J. Lee (2003), Linear Regression Analysis, 2nd ed., Wiley.
  2. E. Lehmann and J. Romano (2005), Testing Statistical Hypotheses, 3rd ed., Springer. Section 14.3 in particular.
  3. D. R. Cox and D. V. Hinkley (1979), Theoretical Statistics, Chapman and Hall.

(+1) I think it is hard to find this proof in standard categorical data analysis texts like Agresti, A. (2002). Categorical Data Analysis. John-Wiley.
suncoolsu

Thanks for the comment. I know there is some treatment of the chi-squared statistic in Agresti, but don't recall how far he takes it. He may just appeal to the asymptotic equivalence with the likelihood ratio statistic.
cardinal

I don't know if you'll find the proof above in any text. I haven't seen the use of the full (degenerate) covariance matrix and its properties elsewhere. The usual treatment looks at the (nondegenerate) distribution of the first k1 coordinates and then uses the inverse covariance matrix (which has a nice form, but one which is not immediately obvious) and some (somewhat) tedious algebra to establish the result.
cardinal

Your answer begins by defining a set of X's but then defines the statistic in terms of S's. Can you include something in the answer that indicates how the variables you define at the start and the variables in the statistic are related?
Glen_b -Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.