독립성 테스트와 동질성 테스트


10

나는 기본 통계 과정을 가르치고 있으며 오늘은 두 범주에 대한 카이 제곱 독립 테스트와 동질성 테스트를 다룰 것입니다. 이 두 시나리오는 개념적으로 다르지만 동일한 테스트 통계 및 분포를 사용할 수 있습니다. 동질성 테스트에서 범주 중 하나에 대한 한계 총계는 디자인 자체의 일부인 것으로 가정합니다. 각 총계에 대해 선택된 주제의 수를 나타냅니다. 그러나 카이-제곱 검정은 모든 한계 총계에 대한 컨디셔닝을 중심으로 진행되므로 동질성 검정과 범주 형 데이터와의 독립성 검정을 구분할 때 수학적 결과는 없습니다.

내 질문은 다음과 같습니다. 독립성을 테스트하는지 (모든 한계가 임의 변수 인 경우) 또는 동질성 테스트 (한 세트의 한계가있는 경우)에 따라 다른 분석을 생성 할 수있는 통계적 사고 또는 통계적 접근 방식의 학교가 있습니까? 디자인에 의해 설정)?

연속적인 경우, 동일한 주제에 대해 를 관찰하고 독립성을 테스트하거나 다른 모집단에서 를 관찰 하고 동일한 분포에서 온 것인지 테스트하는 경우 방법이 다릅니다 (상관 분석 대 t- 검정). 범주 형 데이터가 불연속 연속 변수에서 나온 경우 어떻게됩니까? 독립성 및 동질성 테스트를 구분할 수 없는가?(X,Y)(X1,X2)


2
"동질성 테스트"와 "독립 테스트"를 구별하는 소스를 제공 할 수 있습니까? 나는 그것이 같은 것이라고 생각했습니다 . (그리고 Wikipedia 도). 또한 2-way 연속성 테이블에 대한 카이-제곱 검정 또는 K- 독립 샘플 카이-제곱 비교 테스트 라고도합니다 . 카이-제곱 합의 테스트라고도하는 1- 표본 카이-제곱 테스트 와 혼동해서는 안됩니다 . 여기에서 우리가 제공하는 이론적 인 예상 주파수와 비교하여 관측 된 주파수를 테스트합니다.
ttnphns

2
@ttnphns 풍토병 인 것 같습니다. Raluca Balan과 Gilles Lamothe의 "예기치 않은 기대"를 사용하고 있습니다. 작년에 나는 Sharpe, De Veaux 등의 Business Statistics에서 가르쳤다. 두 본문 모두 구별되는 식사를한다. 두 경우 모두 양방향 우회 표가 있습니다. 말할 것도없이, 교과서도 우연성 테이블의 효과 크기를 가르치는 것이 가치가 있다고 생각하지 않습니다. 미묘함이 기본 통계 과정에서 유용성보다 승리 한 또 다른 사례입니다.
Placidia

2
효과 크기에 대한 신뢰 구간을 얻으려고하면 차이가 나타납니다.
Ray Koopman

2
흥미 롭습니다. 구체적인 내용을 추가하고 답변을 작성 하시겠습니까?
Placidia

4
조건부 / 무조건 마진을 구분하여 학생들을 고문하려는 경우에 따라 다릅니다. 그렇지 않다면, "두 범주 형 변수의 독립성"이 "조건부 분포의 동질성"과 같다고 설명하고 단일 -test 를 제시하면 됩니다. (나는 보통 협회의 강도를 측정하는 진정한 Cramer 's 대한 낮은 신뢰 한계와 함께 그것을 제시한다 .)χ2V
Michael M

답변:


4

"무 가설을 쓰려면 어떻게해야합니까?" 다수의 그룹 중 일부 행동 (y / n)의 빈도에 대한 상표를 고려하십시오 . 첫 번째 그룹을 참조 자로 취급하면 빈도와 그룹 간의 연관성을 설명하는 승산 비 ( )가 있습니다.2×kkk1θi,i=1,2,,k1

동질성과 마찬가지로 독립성에서 모든 승산 비는 1이라고 가정합니다. 즉, 조건에 "예"라고 응답 할 가능성은 그룹 할당과 상관없이 동일합니다. 이러한 가정이 실패하면 하나 이상의 그룹이 다릅니다.

H0(homogeneity):i=1k1|θi|=0

H0(independence):i=1k1|θi|=0

이 테스트는 그룹 멤버쉽에 대한 지표 변수를 조정하는 로지스틱 회귀 모델의 점수 테스트 인 관찰 / 예상 주파수를 사용한 Pearson Chi-square 테스트로 수행 할 수 있습니다 . 따라서 구조적으로 이러한 테스트는 동일하다고 말할 수 있습니다.k1

그러나 그룹화 요소의 특성을 고려할 때 차이가 발생합니다. 이런 의미에서 시험의 맥락 적 적용 또는 그 이름이 중요하다. 그룹은 형질의 유전자 또는 대립 유전자 패턴의 존재 유무와 같은 결과의 직접적인 원인이 될 수 있습니다.이 경우 null을 거부하면 결과 가 해당 그룹화 요인에 따라 결정된다는 결론을 내립니다 .

다른 한편으로, 우리가 동질성을 테스트 할 때, 우리는 어떤 인과 적 가정을한다고 스스로를 소멸시킵니다. 따라서 "집단"이 인종과 같은 정교한 구조 (유전자, 행동 및 사회 경제적 결정 요인의 원인이되며 이와 같은 원인) 인 경우, "인종 박탈 지수의 이질성에 의해 입증 된 인종적 소수 민족이 주택 불균형을 경험한다"와 같은 결론을 내릴 수 있습니다. . 누군가가 "소수 민족, 낮은 교육 달성 낮은 소득, 덜 고용 얻을 수 있기 때문에 우물의"당신이 말할 수를 말함으로써 이러한 주장을 반박 경우, "나는 인종이 있다고 주장하지 않았다 인해 당신이 경우 단지 것을, 이런 것들을 보면 경주에서 자신의 생활 상태를 예측할 수 있습니다. "

그런 식으로 의존성 테스트는 숨어있는 요소의 가능한 효과가 관심이 있고 계층화 된 분석에서 처리되어야하는 동질성 테스트의 특별한 경우입니다. 유사한 로지스틱 회귀 모델에서 다변량 조정을 사용하면 그러한 일을 달성 할 수 있으며, 우리는 여전히 균질성이 아니라 의존성 테스트를 수행하고 있다고 말할 수 있습니다.


3

베이지안 방식으로 모델링 할 경우 두 문제 사이에는 분명한 차이가 있습니다. 일부 논문에서 첫 번째 경우 (균질성)를 "한 마진 고정"으로, 두 번째 경우 (독립성)를 "총 테이블 고정"으로 샘플링이라고합니다. 예를 들어 Casella et al. (JASA 2009) .
나는이 주제에 대해 연구하고 있지만 내 논문은이 차이점을 설명합니다.


2
잦은 관점과도 분명한 차이가 있습니다. 무의식적으로 중요하지 않다는 것입니다.
Scortchi-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.