피어슨의 카이 제곱 통계는 카이 제곱 분포에 어떻게 근접합니까?


10

따라서 Pearson 's Chi Squared Statistic이 테이블에 제공되면 형식은 다음과 같습니다.1×N

i=1n(OiEi)2Ei

그러면 표본 크기 이 커짐에 따라 자유도를 갖는 카이-제곱 분포 인 습니다. χn12n1N

내가 이해하지 못하는 것은이 점근 적 근사가 어떻게 작동하는지입니다. 분모 의 가 한다고 생각 합니다. 그 줄 것 때문에 당신은 에 대한 . 그러나 물론 이것은이 자유도,하지 너무 다른 분명 뭔가 일이 벌어지고.Eisi2niχn2=i=1nZi2Zin(0,1)nn1


이것은 귀하의 질문에 대한 답변이 아니지만 , 그것에 대한 약간의 빛을 비출 수 있습니다.
whuber

답변:


11

나는 이것을 직관적으로 동기를 부여하고, 이항에 대한 정상적인 근사치를 기꺼이 받아들이고 있다고 가정하면 두 그룹의 특별한 경우에 대해 어떻게되는지 설명합니다.

그것이 그것이 작동하는 방식을 잘 이해하기에 충분하기를 바랍니다.

카이-제곱 적합도 검정에 대해 이야기하고 있습니다. 그룹 이 있다고 가정 해 봅시다 ( 을 가지고 있지만 것을 선호하는 이유가 있습니다 ).knk

이 상황에 적용되는 모델에서 카운트 , 는 다항식 입니다.Oii=1,2,...,k

하자 . 계수는 합계 에 따라 조정됩니다 (일부 드문 경우는 제외). 그리고 각 범주 에 대해 미리 지정된 확률 세트가 있으며 이는 입니다.N=i=1kOiNpi,i=1,2,,k1

이항과 마찬가지로 다항식에 대한 점근 적 정규 근사법이 있습니다. 실제로 주어진 셀의 개수 만 고려하면 ( "이 범주") 그렇지 않은 경우 이항이됩니다. 이항과 마찬가지로 카운트의 분산 (다항식의 공분산)은 과 의 함수입니다 . 분산을 별도로 추정하지 않습니다.Np

즉, 예상 카운트가 충분히 큰 경우, 카운트 벡터는 평균 거의 정규입니다 . 그러나 개수는 에 따라 조정되므로 분포는 변성됩니다 ( 카운트의 을 지정 하면 나머지가 수정 되므로 차원 의 초평면에 존재 함 ). 분산 공분산 행렬은 대각선 항목 가지며 대각선 요소 퇴행성 때문에 순위 입니다.Ei=NpiNk1k1Npi(1pi)Npipjk1

결과적으로 개별 셀 에 대해 있습니다. 그러나 용어는 사람들의 제곱의 합 그렇다면, (음의 상관 관계) 의존 그것은이 (가) 필요가 없습니다 (그들은 독립적 인 표준화 된 변수 인 경우는 마찬가지로) 분포를. 대신 우리는 잠재적 으로 독립적이고 여전히 대략적인 (무 정상적인) 원래 로부터 독립 변수 세트를 구성 할 수 있습니다 . 우리가 표현하는 경우 자신의 (표준화) 사각형을, 우리는 얻을 것 . 이러한 세트를 구성하는 방법이 있습니다Var(Oi)=Npi(1pi)zi=OiEiEi(1pi)ziχk2k1kχk12k1 변수를 명시 적이지만 다행히도 상당한 노력을 기울이지 않고 문제가 발생한 것과 동일한 결과 (통계량의 동일한 값)를 산출하는 매우 깔끔한 지름길이 있습니다.

간단하게하기 위해 두 범주 (현재 이항식)에 적합하다는 점을 고려하십시오. 첫 번째 셀에있을 확률은 이고 두 번째 셀에있을 확률 은 입니다. 첫 번째 셀 에는 관측치가 있고 두 번째 셀에는 가 있습니다.p1=pp2=1pX=O1NX=O2

관찰 된 첫 번째 셀 수 는 무증상 입니다. 로 표준화 할 수 있습니다 . 그런 다음 는 대략 (무조건 )입니다.XN(Np,Np(1p))z=XNpNp(1p)z2=(XNp)2Np(1p)χ12χ12

그것을주의해라

i=12(OiEi)2Ei=[XNp]2Np+[(NX)(NNp)]2N(1p)=[XNp]2Np+[XNp]2N(1p)=(XNp)2[1Np+1N(1p)] 입니다.

그러나

1Np+1N(1p)=Np+N(1p)Np.N(1p)=1Np(1p) .

따라서 는 우리는 랜덤 변수 가 될 것 입니다. 두 셀 사이의 의존성 은 대신 로 다이빙함으로써 두 사이의 의존성을 정확하게 보상하고 원래의 제곱의 대략적인 정규 랜덤 변수를 얻습니다.i=12(OiEi)2Ei=(XNp)2Np(1p)z2χ12EiEi(1pi)

합산하여 - 합 의존성 동종보다 두 종류 이상 존재 동일한 방법에 의해 처리된다 대신 는 모든 항에 대해 의존성의 영향을 정확하게 보상하고 독립 법선 의 합과 동등한 합을 얻습니다 .(OiEi)2Ei kk-1(OiEi)2Ei(1pi)kk1

통계 에 더 큰 대해 의 분포가 있음을 보여주는 여러 가지 방법이 있습니다 (일부 학부 통계 과정에서 다루며 여러 학부 수준의 텍스트에서 찾을 수 있음). 하지만 당신의 질문이 제시하는 수준을 넘어서 당신을 인도하고 싶지 않습니다. 실제로 파생물은 인터넷의 메모에서 쉽게 찾을 수 있습니다. 예를 들어 여기 에 두 페이지 정도의 공간에 서로 다른 두 가지 파생물이 있습니다. kχk12k


감사합니다. 이것이 수학적인 우연의 일치 / 사고일까요? 예상 값으로 나눌 수 있도록 아주 훌륭하게 작동합니까? 또는 왜 이것이되어야하는지 직관적 인 통계적 설명이 있습니까?
Thoth

사람마다 다른 것들에 따라 직관적이거나 직관적이지 않은 몇 가지 설명이 있습니다. 예를 들어, 관측 된 카운트가 원래 독립적 인 포아송 변수 인 경우 대한 분산 은 실제로 로 나눌 수 있습니다 (& 포아송도 정상입니다). 그런 다음 위와 같이 합계를 조정하면 다항식이됩니다. (CTD) - 조건 (즉, 당신이 포아송 또는 다항로 취급 여부)의 ML 추정이 동일하고, 그 추정의 분산 있도록 동일한 전체에 대한 여부는 여부E izEi
Glen_b -Reinstate 모니카

(ctd) ... 결과적으로 나누면 분산이 정확하게 나옵니다. [여전히 df 만 있습니다.] k - 1Eik1
Glen_b-복지국 Monica

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.