카이-제곱 적합도 검정의 기본 결과는 계층 적으로 이해할 수 있습니다 .
레벨 0 . 고정 확률 벡터 에 대해 다항식 표본을 검정하기위한 고전적인 Pearson 카이 제곱 검정 통계량 은
여기서 은 번째 셀 의 결과 수를 나타냅니다. 크기의 샘플 . 이는 풍성 벡터의 제곱 놈으로 볼 수 , 다변량 중심 한계 정리에 의해
X 2 ( p ) = k ∑ i = 1 ( X ( n ) i − n p i ) 2피X ( n ) i i n Y n = ( Y ( n ) 1 , … , Y ( n ) k ) Y ( n ) i = ( X ( n ) i - n p i ) / √
엑스2( p ) = ∑나는 = 1케이( X( n )나는− n p나는)2n p나는→디χ2k - 1,
엑스( n )나는나는엔와이엔= ( Y( n )1, … , Y( n )케이) Y n d → N(0,I− √와이( n )나는= ( X( n )나는− n p나는) / n p나는−−−√X 2 = ‖ Y N ‖ 2 → χ 2 K - 1 I - √와이엔→디엔( 0 , I − p–√피–√티).
이것으로부터 우리는 이므로 는 랭크의 등전위이므로 .
엑스2= ∥ Y엔∥2→ χ2k - 1k-1I - p–√피–√티k - 1
수준 1 . 계층의 다음 단계에서는 다항식 샘플을 사용한 복합 가설을 고려합니다. 귀무 가설 하에서는 정확한 관심 를 알 수 없으므로 추정해야합니다. 귀무 가설이 복합적이고 차원의 선형 부분 공간으로 구성된 경우 의 최대 우도 추정치 (또는 기타 효율적인 추정기) 를 "플러그인"추정기로 사용할 수 있습니다. 그런 다음 통계량
귀무 가설 하에서 .m피미디엄X 2 1 = K Σ I = 1 ( X ( N ) I - N P I ) (2)피나는
엑스21= ∑나는 = 1케이( X( n )나는− n p^나는)2n p^나는→디χ2k - m - 1,
레벨 2 . 셀이 고정되어 있고 미리 알려진 파라 메트릭 모델에 대한 적합도 검정의 경우를 고려하십시오. 예를 들어, 우리는 rate 를 갖는 지수 분포의 샘플을 가지고 있으며 이로부터 셀 을 비닝하여 다항 샘플을 생성합니다. 관측 된 주파수 만 사용하여 빈 확률 자체의 효율적인 추정치 (예 : MLE) 를 사용하는 경우 위의 결과는 여전히 유효 합니다.Kλ케이
분포에 대한 모수의 수가 (예 : 지수의 경우 )
여기서 여기서 는 주어진 관심 분포에 해당하는 고정 된 알려진 세포의 세포 확률의 MLE로 간주됩니다.m미디엄m = 1
엑스22= ∑나는 = 1케이( X( n )나는− n p^나는)2n p^나는→디χ2k - m - 1,
피^나는
레벨 3 . 하지만 기다려! 표본 , 먼저 효율적으로 추정 한 다음 고정 된 알려진 셀과 함께 카이-제곱 통계량을 사용해야하는 이유는 무엇입니까? 음, 우리는 할 수 있지만 일반적으로 더 이상 해당 카이 제곱 통계량에 대한 카이 제곱 분포를 얻지 못합니다. 실제로 Chernoff와 Lehmann (1954)은 MLE을 사용하여 모수를 추정 한 다음 다시 연결하여 세포 확률을 추정하면 일반적으로 카이 제곱이 아닌 분포를 나타냅니다. 적절한 규칙적 조건 하에서 분포는 (chistotically) 와 랜덤 변수 사이이며, 분포는 모수에 따라 다릅니다.지1, … , Z엔~ Fλλχ2k - m - 1χ2k - 1
직관적으로 이는 의 제한 분포 가 입니다.와이엔엔( 0 , I − pλ−−√피λ−−√티- ( λ ) )
우리는 아직 임의의 셀 경계에 대해 이야기하지 않았으며, 우리는 이미 약간 빡빡한 위치에 있습니다! 두 가지 방법이 있습니다. 하나는 레벨 2로 후퇴하거나 최소한 기본 매개 변수 의 효율적인 추정기 (MLE와 같은)를 사용 하지 않는 것 입니다. 두 번째 방법은 카이 제곱 분포를 복구하는 방식으로 의 효과를 취소하는 것입니다 .λA (λ)
후자의 길을가는 방법에는 여러 가지가 있습니다. 기본적으로 에 "오른쪽"행렬 곱하는 것 입니다. 그런 다음 2 차 형식
여기서 는 셀 수입니다.B (와이엔B ( λ^)
와이티엔비티B Y엔→디χ2k - 1,
케이
예는 있습니다 라오 - 롭슨 - Nikulin 보낸 통계 와 Dzhaparidze - Nikulin 보낸 통계 .
레벨 4 . 무작위 세포. 랜덤 셀의 경우, 특정 규칙 조건 하에서 Pearson 카이 제곱 통계량을 수정하는 경로를 취하면 레벨 3과 동일한 상황이됩니다. 특히 위치 규모의 가족은 매우 훌륭하게 행동합니다. 한 가지 일반적인 접근법은 셀을 각각 명목상 확률 가되도록하는 것 입니다. 따라서 임의의 셀은 형식의 간격입니다. 여기서 . 이 결과는 샘플 크기에 따라 임의의 셀 수가 증가하는 경우로 확장되었습니다.1 / K I J = μ + σ I는 0 , J I을 0케이1 개 / k나는^제이= μ^+ σ^나는0 , j나는0 , j= [ F− 1( ( j - 1 ) / k ) , F− 1( j / k ) )
참고 문헌
W. van der Vaart (1998), Asymptotic Statistics , Cambridge University Press. 17 장 : 카이 스퀘어 테스트 .
H. Chernoff and EL Lehmann (1954), 검정에서 적합도에 대한 최대 우도 추정치 사용χ2 , Ann. 수학. 통계 학자. , vol. 25 번 3, 579–586.
FC Drost (1989), 클래스 수가 무한대 인 경향이있을 때 위치 척도 모델에 대한 일반화 된 카이 제곱 적합도 검정 , Ann. 통계 , vol. 17 번 3, 1285–1300.
MS Nikulin, MS (1973), 시프트 및 스케일 매개 변수를 사용한 연속 분포에 대한 카이-제곱 검정 , 확률 이론 및 응용 , vol. 19 번 3, 559–568.
KO Dzaparidze와 MS Nikulin (1973), Pearson의 표준 통계 , 확률 이론 및 그 적용 , vol. 19 번 4, 851–853.
KC Rao 및 DS Robson (1974), 지수 패밀리 내 적합도 검정에 대한 카이 제곱 통계량 , Comm. 통계 학자. , 3 권. 12, 1139–1153.
N. Balakrishnan, V. Voinov 및 MS Nikulin (2013), 응용 프로그램을 사용한 카이 제곱 적합도 검정 , 학술 출판사.