독립 검정에서 카이 제곱 분포를 사용하는 이유는 무엇입니까?


12

적합도 테스트는 다음 사용 통계 : 것을 허가 테스트에서, 조건이 하나의 사용, 충족 - 분배 지정된 것을 P 값 계산하기 동일한 크기의 대표적인 샘플에서 이러한 값을 관찰하는 것이 사실 일 것이다.χ2 χ2

χ02=i=1n(OiEi)2Ei
χ2H0

그러나 통계량 가 ( 자유도를 갖는) 를 따르 려면 독립 표준 표준 ( Wikipedia )). 테스트 조건은 다음과 같습니다 (다시 Wikipedia에서 ). χ 2 n 1 n i = 1 ( O iE i ) 2χ02χ2n1 Zi

i=1n(OiEi)2Ei=i=1n1Zi2
Zi
  1. 인구 대표 표본
  2. 큰 샘플 크기
  3. 예상 세포 수가 충분히 크다
  4. 각 카테고리의 독립성

조건 (1,2)에서 우리는 표본에서 모집단으로의 추론 조건을 만족한다는 것이 분명합니다. (3) 분모에 있는 이산 카운트 가 각 에 대해 연속 분포를 않고 충분히 크지 않으면 Yates 로 정정 할 수있는 오류가 있기 때문에 필요한 가정 인 것 같습니다. 수정 -이것은 불연속 분포가 기본적으로 "바닥"연속 분포라는 사실에서 비롯된 것이므로 각각에 대해 씩 이동 하면이 문제가 해결됩니다.Z iEiZi1/2

(4)의 필요성은 나중에 편리해 보일 것 같습니다만, 어떻게 볼 수 없습니다.

처음 에는 통계가 분포와 일치하려면 이 필요하다고 생각했습니다. 이로 인해 이 의심스러운 가정으로 . 실제로, 에서 로의 등변의 두 측면에 대한 차원의 축소에서 이것이 가능하지 않다는 것이 분명합니다. OiEiN(Zi=OiEiEinnOiEiN(0,Ei)nn1

whuber의 설명 덕분에 Z_i는 이므로 각 용어와 같을 필요는 없다는 것이 표준 정규 확률 변수의 (합계 변수의 개수의 감소 주) 있는 기능적 독립적.O iE iZiOiEiEiχ02=i=1n1Zi2Zi

그렇다면 제 질문 은 어떻게 가 분포를 따를 수 있습니까? 각 항의 어떤 조합이 제곱 표준 법선 입니까? 이를 위해서는 분명히 CLT를 사용해야합니다. 다시 말해 , 각각의 는 무엇 입니까?χ02χ2(OiEi)2EiZi2Zi


1
누군가 내가 마지막으로 말한 것을 가정한다는 것을 알고있는 곳이 궁금합니다 ( ). 그럴 필요는 없습니다. 통계량은 정규 분포를 갖는 표준화 된 잔차없이 분포 (적어도 매우 좋은 근사치까지)를 가질 수 있습니다. 당신이 묻고 싶은 질문은 이러한 가정이 통계를 분포를 참조하는 것을 어떻게 정당화하는 것 입니까? 그들 스스로 는 그렇지 않습니다. 무엇이 잘못 될 수 있는지에 대한 논의는 내 게시물 stats.stackexchange.com/a/17148을 참조하십시오 . OiEiN(0,Ei)χ2χ2χ2χ2
우버

1
두 제곱합의 동등성에서 제곱근이 용어별로 같다는 결론을 내릴 수 없습니다! 이는 단순한 숫자의 경우이므로 반드시 임의 변수의 경우입니다.
whuber

1
이 콘크리트를 만들기 위해 이 자유도 및 분포 와 독립적으로 분포 한다고 이지만 모든 대해 입니다 . 그러나 중 어느 것도 정상적인 것은 에는 분포가 있습니다. (Wi),i=1,,nχν1,ν2,,νnν1+ν2++νn=n1νi1iWii=1nWi2χ2(n1)
whuber

1
"제곱 표준 법선"이 "독립 제곱 표준 법선의 합"을 의미한다면, 그것은 처음에 실제로 포즈를 취하고 싶었던 질문입니다 :-). 그리고 결국, 상황에 대한 대부분의 분석은 실제로 표준화 된 잔차가 무의식적으로 표준 정규임을 증명하기 위해 중앙 한계 정리를 호출합니다 (그러나 독립성이 아니기 때문에 자유도가 이고 아닙니다 ). n1n
whuber

1
내가 기대하는 것에 대한 +1은 곧 매우 좋은 질문이 될 것입니다. 첫 번째 문제는 독립성 테스트에서 주장 된 통계를 사용하지 않는다는 것입니다. 시작시 제공된 통계량은 일차원 ( 개 이상의 범주)이며 독립성 검정에는 둘 이상의 변수가 필요합니다. 검정 이름과 통계가 일치하도록 편집하십시오. n
Glen_b-복지 주 모니카

답변:


6

포아송 분포에 관한 것입니다. 경우 평균이이고 포아송 다음의 편차 이다 또한이. 이것은 가 와 같은 엔티티라는 것을 의미합니다. CLT에 따르면 포아송은 평균이 커짐에 따라 정규화되는 경향이 있으며, 여기에서 카이 제곱이 시작됩니다. 그렇습니다. 이것은 점근선 테스트입니다.XλXλ

(Xλ)2λ
z2

자유도는 코크란의 정리에서 나옵니다. 기본적으로 Cochran은 점수 에서 카이 제곱이 선형 변환을받는 방식으로 변형되는 방법을 설명합니다 .z2

izi2=ZIZ

행렬 표기법으로. 일반적인 제곱합을 계산하는 대신 일부 행렬 Q에 대해 를 계산 하면 카이 제곱 분포로 수량을 얻을 수 있지만 자유도는 이제 의 순위입니다 . 행렬 Q에는 더 많은 조건이 있지만 이것이 그 요점입니다.

ZQZ
Q

일부 행렬 표기법을 사용하면 를 2 차 형태로 표현할 수 있습니다 . Cochran은 원래 정규 변량의 독립성을 가정하므로 계수 테이블의 열도 독립적이어야합니다.

i(ziz¯)2

미안하지만, "당신이한다면 ..."에서 저를 잃어 버렸습니다.
VF1

@ VF1, 나는 변경을 가졌으므로 더 명확하기를 바랍니다. 코크레인의 정리는 법선이있는 제곱합에 카이 제곱 분포가있을 때의 질문에 대한 답입니다.
Placidia

1
좋아, 이것 좀 봐 그러나 다른 사람이 추가 할 것이있는 경우 질문을 열어 두겠습니다.
VF1

1
일반적으로 샘플 크기는 고정되어 있습니다. 즉, 어떤 항목이 Poisson 분포를 따를 수는 없습니다. 따라서 포아송 분포에 대한 호소는 또 다른 근사치 인 것처럼 보이며 시작한 곳에서 우리를 바로 떠날 것 같습니다.
whuber

1

교과서 "랜덤 및 시뮬레이션에 입문 통계"에 따르면, 3.3.2 (에서 자유롭게 사용할 교과서 OpenIntro )는 시험 통계는 예상 관찰의 편차를 축적하기 위해 노력하고있다. 그리고 편차는 실제로 용어를 통해 표현됩니다.χ2

Zi=OiEiEi

실제로는 합니다.

OiEi(StandardErrorOfTheObserved)

교과서는 계속해서 가 의해 더 잘 추정 용어는 됩니다. 교과서는 실제로이 대체가 수용 가능한 이유를 설명하지 않으며, 또한 알고 싶습니다.(StandardErrorOfTheObserved)EiZi=OiEiEi

어쨌든, 당신은 폼의 테스트 통계를 만들 수 있습니다

Z=|Z1|+|Z2|+|Z3|+...

그러나 모든 값을 제곱하는 것이 좋습니다. 즉, 양수 값을 즉시 얻고 더 높은 값을 제곱 한 후에 더 두드러집니다. 그래서 당신은 다음을 얻습니다 :

χ2=Z12+Z22+Z32+...

그러나 나는 모른다 중 하나 이유 합이 따라야한다 분포를, 또는의 정의에 대한 연결 무엇 분포 (표준 정규 독립 변수의 제곱의 합).χ 2χ2χ2

편집 : 나는 여전히 통계를 배우고 있는데, 여전히 테스트를 제대로 이해하지 못한다고 생각 합니다. 다른 사람들도 저를 깨달을 수 있기를 바랍니다.χ2

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.