Pearson은 1900 년에 다음과 같은 Pearson 카이 제곱 통계를 어떻게 얻었습니까?
그는 카이 제곱을 염두에두고 메트릭 (하단 접근법)를 고안 했습니까, 아니면 통계를 고안 한 후 나중에 카이 제곱 분포 (위에서 아래로)를 따르는 지 증명 했습니까?
왜 그가 특정 형태를 선택했는지 알고 또는 ∑ | O i j − E i j | 그리고 왜 사각형을 분모로 나누었 을까요?
Pearson은 1900 년에 다음과 같은 Pearson 카이 제곱 통계를 어떻게 얻었습니까?
그는 카이 제곱을 염두에두고 메트릭 (하단 접근법)를 고안 했습니까, 아니면 통계를 고안 한 후 나중에 카이 제곱 분포 (위에서 아래로)를 따르는 지 증명 했습니까?
왜 그가 특정 형태를 선택했는지 알고 또는 ∑ | O i j − E i j | 그리고 왜 사각형을 분모로 나누었 을까요?
답변:
Pearson의 1900 논문은 저작권이 없으므로 온라인에서 읽을 수 있습니다 .
이 문서는 독립성 또는 동질성 테스트가 아니라 적합성 테스트의 장점에 관한 것임을 주목해야합니다.
그는 다변량 법선으로 작업하여 진행하며 카이 제곱은 표준화 된 정규 변량의 제곱으로 발생합니다.
p160-161에 대한 토론에서 그는 다항식 분산 데이터에 테스트를 적용하는 것에 대해 명확하게 논의하고 있음을 알 수 있습니다 (그가 어디서 그 용어를 사용한다고 생각하지 않습니다). 그는 다항식의 대략적인 다변량 정규성을 이해합니다 (여백은 여백이 거의 정상임을 알고 있습니다. 아주 오래된 결과입니다). 내 생각 엔 그 물건의 대부분은 1900 년까지 이미 낡은 모자 일 것입니다.
그런 다음 p163의 맨 아래에 카이 제곱 통계량을 "적합도의 척도"로 도출합니다 (통계량 자체는 다변량 정규 근사 지수에 나타남).
그런 다음 p- 값 *을 평가하는 방법에 대해 논의한 다음 43.87을 넘어 의 위쪽 꼬리 영역을 0.000016으로 올바르게 제공합니다 . [그는 그 단계에서 매개 변수 추정에 대한 자유도를 조정하는 방법을 정확하게 이해하지 못 했으므로 논문의 일부 예는 너무 높은 df를 사용함]을 명심해야합니다.
* (어부와 네이 먼-피어슨 테스트 패러다임은 존재하지 않지만, p- 값의 개념을 이미 적용하고 있음을 분명히 볼 수 있습니다.)
그가 와 같은 용어를 명시 적으로 쓰지 않는다는 것을 알 수있을 것 입니다. 대신, 그는 예상 카운트에 대해 m 1 , m 2 등을 쓰고 관측 된 양에 대해 m ' 1 등을 사용합니다. 그런 다음 e = m - m ' (하반 p160)을 정의하고 각 셀에 대해 e 2 / m 을 계산 합니다 (식 (xv) p163 및 p167의 맨 아래에있는 표의 마지막 열 참조). 그러나 다른 표기법으로.
카이-제곱 검정을 이해하는 현재의 많은 방법이 아직 제자리에 있지 않지만, 반면에, (적어도 무엇을 찾아야하는지 알고 있다면) 이미 약간 있습니다. 1920 년대 (그리고 그 이후)에 우리가 이런 것들을 보는 방식을 바꾸는 많은 일이 일어났습니다.
우리가 나누는 이유에 대해서는 다항식 경우, 다항식의 개별 구성 요소의 분산이보다 작은 경우에도 것을 어떻게 E 나는 우리가 공분산을 설명 할 때, 그것은 단지로 나누어하는 것이 상당의 E 난 , 결정 좋은 단순화를 위해.
편집에 추가됨 :
Plackett의 1983 년 논문은 상당한 역사적 맥락과 논문에 대한 안내서를 제공합니다. 나는 그것을 보는 것이 좋습니다. JStor (로그인 한 경우)를 통해 온라인으로 무료로 제공되므로 기관을 통해 읽을 필요가 없습니다.
Plackett, RL (1983),
"칼 피어슨과 카이-제곱 검정,"
국제 통계 검토 ,
Vol. 51 권 1 호 (Apr), 59-72 쪽