범주 형 명목 변수 간의 범주 간 상관


9

두 가지 범주 형 명목 변수가있는 데이터 세트가 있습니다 (둘 다 5 개의 범주가 있음). 이 두 변수의 범주 간 잠재적 상관 관계를 식별 할 수 있는지 (및 방법) 알고 싶습니다.

, 변수 1 의 범주 의 결과가 변수 2의 특정 범주 와 강한 상관 관계를 보이는지 여부는 5 개의 범주를 가진 두 개의 변수가 있으므로 모든 범주에 대한 총 상관 분석은 25 개의 결과로 내려갑니다 (적어도 내가 희망하고 / 예상대로 작동하는 경우).ij

문제를 구체적인 질문으로 공식화하려고 시도했습니다.

질문 1 : 범주 형 변수를 값 (카테고리) 당 5 개의 다른 더미 변수로 옮깁니다. 두 번째 변수에 대해서도 동일한 절차를 실행합니다. 그런 다음 더미 1.i와 2.i 사이의 상관 관계를 결정하려고합니다 (예 :). 일반적인 상관 계수 절차를 사용하여이 절차를 실행하는 것이 통계적으로 정확합니까? 이 절차로 인한 상관 계수가 두 더미 변수 간의 상관 관계에 대한 적절한 통찰력을 제공합니까?

질문 2 : 질문 1에 설명 된 절차가 유효한 절차 인 경우 모든 범주의 2 (또는 그 이상) 범주 형 명목 변수에 대해이 분석을 한 번에 모두 실행할 수있는 방법이 있습니까?

내가 사용하는 프로그램은 SPSS (20)입니다.


@Michael Mayer가 작성한 포인트는 수정 된 질문에 적용됩니다.
Nick Cox

1
두 변수가 서로 관련이 없다면 5x5 행렬의 모든 셀에서 1/25가됩니다. 따라서 통계 이며 여기서 및 - 두 변수의 5 개 값이 적합해야합니다. χ2xy(OE)2EE=xyOxy/25Oxy
Aksakal

3
@Aksakal "상관되지 않음"은 잘못된 용어입니다. 변수는 명목 형이므로 상관 관계가 정의되지 않습니다. 나는 당신이 독립을 의미한다고 생각하지만 독립성이 주파수를 동일하게 의미하지는 않습니다. 독립된 셀 주파수는 한계 주파수에 의존합니다.
Nick Cox

답변:


6

하나의 공칭 변수의 범주 와 다른 변수의 범주 사이의 "초점"연관은 우리가 알고 있듯이 셀 의 주파수 잔차 로 표현됩니다 . 잔차가 0이면 두 공칭 변수가 연관되지 않은 경우 주파수가 예상되는 것을 의미합니다. 잔차가 클수록 표본에서 과도하게 표현 된 조합 로 인해 연관성이 더 커집니다 . 큰 음의 잔차는 동등하지 않은 조합을 말합니다. 따라서 주파수 잔차가 원하는 것입니다.ijijij

원시 잔차는 한계 총계와 전체 총계 및 테이블 크기에 의존하기 때문에 적합하지 않습니다. 값은 어떤 방식으로도 표준화되지 않습니다. 그러나 SPSS는 Pearson 잔차라고도하는 표준화 잔차를 표시 할 수 있습니다 . 성 잔차는 잔차를 표준 편차의 추정치 (예상 값의 제곱근과 같음)로 나눈 값입니다. 테이블의 성 잔차는 평균 0과 성입니다. dev. 1; 따라서 st. 잔차는 정량 변수 분포의 z- 값과 같은 z- 값을 제공합니다 (실제로 포아송 분포의 z입니다). 성 잔차는 동일한 크기와 동일한 총 의 서로 다른 테이블간에 비교할 수 있습니다. 우발 사태 표의 카이 제곱 통계량은 제곱 st의 합입니다. 잔차N그 안에. 성 비교 테이블과 동일 부피 테이블의 잔차는 카이 제곱 통계량에 가장 많이 기여하는 특정 셀을 식별하는 데 도움이됩니다.

SPSS에는 조정 잔차 (= 조정 된 표준화 잔차) 도 표시됩니다 . 조정 잔차는 잔차를 표준 오차의 추정치로 나눈 값입니다. 재미있는 조정. 잔차는 와 같습니다. 여기서 은 총계이고 는 두 명목 변수 의 범주 와 에 해당하는 더미 변수 간의 피어슨 상관 관계 (별칭 Phi 상관 관계) 입니다. . 이 은 정확히 당신이 계산하고 싶은 말입니다. 조정 잔차는 직접 관련이 있습니다.NrijNrijijr

st와 달리 잔차, 조정 잔차는 표의 한계 분포 형태로 표준화되어 있으며 (해당 셀뿐만 아니라 행과 열 외부의 셀에서도 예상되는 빈도를 고려합니다) 따라서 직접 강도 를 볼 수 있습니다 범주 사이에 묶어 와 - 에 대한 걱정없이 자신의 한계 합계가 큰 또는 작은 상대적으로 다른 카테고리 '여부. 조정 잔차는 z- 점수와 비슷하지만 이제는 포아송이 아닌 정규 분포의 z와 같습니다. 조정되면. 잔차가 2보다 크거나 -2보다 작 으면 레벨 에서 중요하다고 결론을 내릴 수 있습니다 . 조정 잔차는 여전히 에 의해 영향을 받고 ; ijp<0.051Nr의 것은 아니지만 adj에서 모든 얻을 수 있습니다 . 더미 변수를 생성하는 데 시간을 소비하지 않고 위의 공식에 따른 잔차. r2

두 번째 질문과 관련하여 3 방향 카테고리 관련-잔차를 표시하는 일반 로그 선형 분석의 일부로 가능합니다. 그러나 3 방향 셀 잔차의 실제 사용은 적당하지 않습니다. 3 (+)-방향 연관 측정은 쉽게 표준화되지 않으며 쉽게 해석 할 수 없습니다.


1 에서 법선 곡선 는 2.5 % 꼬리의 컷 포인트이므로 양쪽 꼬리를 양면 대립 가설과 같이 고려할 경우 5 %입니다.1.962

2 셀 에서 조정 된 잔차 의 중요성은 의 중요성과 같습니다 . 또한 테이블에 2 개의 열만 있고 과 사이 의 비율에 대해 z-test를 수행하는 경우 행 열 비율 은 해당 검정의 p- 값은 (임의의) 두 가지 조정의 중요성과 같습니다. 2 열 테이블의 행의 잔차 .ijrijPr(i,1)Pr(i,2)ii


1

SPSS를 사용한 이변 량 통계에 관한 문서에서 직접 가져온 :

카이-제곱 은 두 서수 변수, 두 개의 명목 변수 또는 서수와 명목 변수 사이의 관계가 있는지 확인할 수있는 유용한 기법입니다. 당신은 assymp를 봅니다. Sig 열과 0.05 미만인 경우 두 변수 간의 관계가 통계적으로 유의합니다.


4
알았지 만 세 가지 중얼 거림, 하나의 전공, 두 개의 매우 사소한. 두 서수 변수의 카이 제곱은 순서를 무시합니다. 이 문서 SPSS 문서가 아니라 다른 사람에 의한 기본 소개이며 방금 언급 한 것처럼 지나치게 단순화되었습니다. 그들은 "Asymp"를 복사하지 않았습니다. 올바르게 (이전 페이지의 예). OP의 더 큰 문제는 여기서 상관 관계가 잘못된 단어라는 것입니다. "연관"은 연관성을 측정, 테스트 및 (모두 가장) 모델링하는 데있어 핵심 단어입니다.
Nick Cox

1
고마워, 나는 the SPSS document조금 편집했다 , 그것에 대한 과도한 진위를 첨부하려는 의도는 아니었다.
Zhubarb
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.