답변:
나는 이것을 직관적으로 동기를 부여하고, 이항에 대한 정상적인 근사치를 기꺼이 받아들이고 있다고 가정하면 두 그룹의 특별한 경우에 대해 어떻게되는지 설명합니다.
그것이 그것이 작동하는 방식을 잘 이해하기에 충분하기를 바랍니다.
카이-제곱 적합도 검정에 대해 이야기하고 있습니다. 그룹 이 있다고 가정 해 봅시다 ( 을 가지고 있지만 것을 선호하는 이유가 있습니다 ).
이 상황에 적용되는 모델에서 카운트 , 는 다항식 입니다.
하자 . 계수는 합계 에 따라 조정됩니다 (일부 드문 경우는 제외). 그리고 각 범주 에 대해 미리 지정된 확률 세트가 있으며 이는 입니다.
이항과 마찬가지로 다항식에 대한 점근 적 정규 근사법이 있습니다. 실제로 주어진 셀의 개수 만 고려하면 ( "이 범주") 그렇지 않은 경우 이항이됩니다. 이항과 마찬가지로 카운트의 분산 (다항식의 공분산)은 과 의 함수입니다 . 분산을 별도로 추정하지 않습니다.
즉, 예상 카운트가 충분히 큰 경우, 카운트 벡터는 평균 거의 정규입니다 . 그러나 개수는 에 따라 조정되므로 분포는 변성됩니다 ( 카운트의 을 지정 하면 나머지가 수정 되므로 차원 의 초평면에 존재 함 ). 분산 공분산 행렬은 대각선 항목 가지며 대각선 요소 퇴행성 때문에 순위 입니다.
결과적으로 개별 셀 에 대해 있습니다. 그러나 용어는 사람들의 제곱의 합 그렇다면, (음의 상관 관계) 의존 그것은이 (가) 필요가 없습니다 (그들은 독립적 인 표준화 된 변수 인 경우는 마찬가지로) 분포를. 대신 우리는 잠재적 으로 독립적이고 여전히 대략적인 (무 정상적인) 원래 로부터 독립 변수 세트를 구성 할 수 있습니다 . 우리가 표현하는 경우 자신의 (표준화) 사각형을, 우리는 얻을 것 . 이러한 세트를 구성하는 방법이 있습니다 변수를 명시 적이지만 다행히도 상당한 노력을 기울이지 않고 문제가 발생한 것과 동일한 결과 (통계량의 동일한 값)를 산출하는 매우 깔끔한 지름길이 있습니다.
간단하게하기 위해 두 범주 (현재 이항식)에 적합하다는 점을 고려하십시오. 첫 번째 셀에있을 확률은 이고 두 번째 셀에있을 확률 은 입니다. 첫 번째 셀 에는 관측치가 있고 두 번째 셀에는 가 있습니다.
관찰 된 첫 번째 셀 수 는 무증상 입니다. 로 표준화 할 수 있습니다 . 그런 다음 는 대략 (무조건 )입니다.
그것을주의해라
입니다.
그러나
.
따라서 는 우리는 랜덤 변수 가 될 것 입니다. 두 셀 사이의 의존성 은 대신 로 다이빙함으로써 두 사이의 의존성을 정확하게 보상하고 원래의 제곱의 대략적인 정규 랜덤 변수를 얻습니다.
합산하여 - 합 의존성 동종보다 두 종류 이상 존재 동일한 방법에 의해 처리된다 대신 는 모든 항에 대해 의존성의 영향을 정확하게 보상하고 독립 법선 의 합과 동등한 합을 얻습니다 . kk-1
통계 에 더 큰 대해 의 분포가 있음을 보여주는 여러 가지 방법이 있습니다 (일부 학부 통계 과정에서 다루며 여러 학부 수준의 텍스트에서 찾을 수 있음). 하지만 당신의 질문이 제시하는 수준을 넘어서 당신을 인도하고 싶지 않습니다. 실제로 파생물은 인터넷의 메모에서 쉽게 찾을 수 있습니다. 예를 들어 여기 에 두 페이지 정도의 공간에 서로 다른 두 가지 파생물이 있습니다. k
@Glen_b 사용자가 참조한 한 페이지 분량의 원고 http://sites.stat.psu.edu/~dhunter/asymp/lectures/p175to184.pdf 는 통계 가 공분산 순위를 가진 Hotelling 로 다시 쓰여질 수 있음을 보여줍니다 = (식 9.6 참조). 그런 다음 SJ Sepanski (1994) 의 고전적인 결과를 불러 와 자유 도로 카이 제곱으로 점근 분포를 구할 수 있습니다.k - 1