Karl Pearson은 카이 제곱 통계량을 어떻게 얻었습니까?


14

Pearson은 1900 년에 다음과 같은 Pearson 카이 제곱 통계를 어떻게 얻었습니까?

K=(OijEij)2Eij
that
Kχ2

그는 카이 제곱을 염두에두고 메트릭 K (하단 접근법)를 고안 했습니까, 아니면 통계를 고안 한 후 나중에 카이 제곱 분포 (위에서 아래로)를 따르는 지 증명 했습니까?

왜 그가 특정 형태를 선택했는지 알고 또는 | O i jE i j | 그리고 왜 사각형을 분모로 나누었 을까요?(OijEij)2|OijEij|



1
물론 사용할 수있는 통계 수는 얼마든지 가능합니다. 셀 수에 따라 달라지는 샘플링 분포를 계산해야하지만 대안은 완벽하게 좋습니다. 이 형식에서 편리한 한 가지 방법은 다른 분포와 특정 관계가 있다는 것입니다. 예를 들어 k 제곱 표준 정규 랜덤 변량의 합의 분포입니다.
gung-Monica Monica 복원

답변:


23

Pearson의 1900 논문은 저작권이 없으므로 온라인에서 읽을 수 있습니다 .

이 문서는 독립성 또는 동질성 테스트가 아니라 적합성 테스트의 장점에 관한 것임을 주목해야합니다.

그는 다변량 법선으로 작업하여 진행하며 카이 제곱은 표준화 된 정규 변량의 제곱으로 발생합니다.

p160-161에 대한 토론에서 그는 다항식 분산 데이터에 테스트를 적용하는 것에 대해 명확하게 논의하고 있음을 알 수 있습니다 (그가 어디서 그 용어를 사용한다고 생각하지 않습니다). 그는 다항식의 대략적인 다변량 정규성을 이해합니다 (여백은 여백이 거의 정상임을 알고 있습니다. 아주 오래된 결과입니다). 내 생각 엔 그 물건의 대부분은 1900 년까지 이미 낡은 모자 일 것입니다.

그런 다음 p163의 맨 아래에 카이 제곱 통계량을 "적합도의 척도"로 도출합니다 (통계량 자체는 다변량 정규 근사 지수에 나타남).

그런 다음 p- 값 *을 평가하는 방법에 대해 논의한 다음 43.87을 넘어 의 위쪽 꼬리 영역을 0.000016으로 올바르게 제공합니다 . [그는 그 단계에서 매개 변수 추정에 대한 자유도를 조정하는 방법을 정확하게 이해하지 못 했으므로 논문의 일부 예는 너무 높은 df를 사용함]을 명심해야합니다.χ122

* (어부와 네이 먼-피어슨 테스트 패러다임은 존재하지 않지만, p- 값의 개념을 이미 적용하고 있음을 분명히 볼 수 있습니다.)

그가 와 같은 용어를 명시 적으로 쓰지 않는다는 것을 알 수있을 것 입니다. 대신, 그는 예상 카운트에 대해 m 1 , m 2 등을 쓰고 관측 된 양에 대해 m ' 1 등을 사용합니다. 그런 다음 e = m - m ' (하반 p160)을 정의하고 각 셀에 대해 e 2 / m 을 계산 합니다 (식 (xv) p163 및 p167의 맨 아래에있는 표의 마지막 열 참조). 그러나 다른 표기법으로.(OiEi)2/Eim1m2m1e=mme2/m

카이-제곱 검정을 이해하는 현재의 많은 방법이 아직 제자리에 있지 않지만, 반면에, (적어도 무엇을 찾아야하는지 알고 있다면) 이미 약간 있습니다. 1920 년대 (그리고 그 이후)에 우리가 이런 것들을 보는 방식을 바꾸는 많은 일이 일어났습니다.


우리가 나누는 이유에 대해서는 다항식 경우, 다항식의 개별 구성 요소의 분산이보다 작은 경우에도 것을 어떻게 E 나는 우리가 공분산을 설명 할 때, 그것은 단지로 나누어하는 것이 상당의 E , 결정 좋은 단순화를 위해.EiEiEi


편집에 추가됨 :

Plackett의 1983 년 논문은 상당한 역사적 맥락과 논문에 대한 안내서를 제공합니다. 나는 그것을 보는 것이 좋습니다. JStor (로그인 한 경우)를 통해 온라인으로 무료로 제공되므로 기관을 통해 읽을 필요가 없습니다.

Plackett, RL (1983),
"칼 피어슨과 카이-제곱 검정,"
국제 통계 검토 ,
Vol. 51 권 1 호 (Apr), 59-72 쪽


1
방금이 게시물을 다시 읽고 매번 할 때마다 추가 통찰력을 얻습니다. @Glen_b 이전에해야했던 훌륭한 답변에 감사드립니다. 추가 질문을 할 수있는 경우 E로 나누는 공분산 조정 방법에 대한 설명에서 더 자세히 설명하거나이 점을 설명하는 리소스를 알려 주시겠습니까? 왜 "정규화"가 필요한지 직관적으로 이해할 수 있지만 수학적 증거로 직감을 뒷받침하고 싶습니다.
Alby

1
공분산을 조정하는 방법에 관해서는이 답변 에 대해 약간의 토론이 있으며 두 범주 (이항 경우)의 이분법에 대한 몇 가지 파생 선이 이항의 분산과 두 기여를 나누는 것의 관계를 보여줍니다 의 성공과 실패에 대한 카이 제곱 . 당신이 거기에 다른 무언가를 쫓고있는 것처럼 보이지만 당신이 있다면 나는 그것이 무엇인지 잘 모르겠습니다. 그 말을 다시 할 수 있습니까? Ei
Glen_b-복지 주 모니카

1
XiCov(Xi,Xj)=E(XiXj)E(Xi)E(Xj)=E(Xi)E(Xj)Xi,Xj>0Cov(Oi,Oj)

링크 @Glen_b에 감사합니다. 게시물을 읽은 후에는 훨씬 명확 해졌습니다! 나는 분모가 각 셀의 초기 차이, 즉 "정규화"라는 용어를 조정하기 위해 존재한다는 것을 순진 히 생각하고 있었지만 게시물을 읽는 것은 내가 완전히 벗어났다는 것을 깨달았습니다.
Alby

불행하게도, '정규화'라는 단어는 통계와 관련된 세 가지 다른 의미를 가지고 있습니다. 비공식적으로, 나는 보통 "0과 표준 편차 1을 의미하는 표준화"를 의미하는 데에만 사용하지만 다른 사람들은 어떤 표준에 따라 벡터를 정규화한다는 의미에서 '정규화'를 의미하거나 심지어 대략적인 정규성으로 변환하는 것을 사용합니다. 여기에 버그가 있기 때문에 지금까지는 피해야합니다.
Glen_b-복지 주 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.