두 가지 범주 형 변수
카이-제곱 독립성 검정을 통해 두 범주 형 변수가 독립적인지 확인할 수 있습니다.
이는 일반적인 카이-제곱 검정입니다 . 두 변수가 독립적이라고 가정하면 이러한 변수에 대한 우연성 표 값이 균일하게 분포되어야합니다. 그런 다음 실제 값이 얼마나 균일한지 확인합니다.
이 테스트에서 따르는 상관 관계 측정 값 인 Crammer 's V 도 있습니다
예
두 개의 변수가 있다고 가정
우리는 다음과 같은 데이터를 관찰했다 :
성별과 도시는 독립적입니까? Chi-Squred 테스트를 수행하겠습니다. 귀무 가설 : 독립적이며 대립 가설은 어떤 방식 으로든 상관되어 있다는 것입니다.
귀무 가설 하에서 우리는 균일 한 분포를 가정합니다. 예상 값은 다음과 같습니다.
따라서 카이 제곱 테스트를 실행하면 결과 p- 값은이 두 변수 사이의 상관 관계를 나타내는 척도로 볼 수 있습니다.
Crammer 's V를 계산하기 위해 먼저 표본의 크기 인 정규화 계수 chi-squared-max를 찾아 카이-제곱을 나누고 제곱근을 취합니다.
아르 자형
tbl = matrix(data=c(55, 45, 20, 30), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))
chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)
여기서 p 값은 0.08로 상당히 작지만 여전히 독립 가설을 기각하기에는 충분하지 않습니다. 여기서 "상관"은 0.08이라고 말할 수 있습니다.
우리는 또한 V를 계산합니다 :
sqrt(chi2$statistic / sum(tbl))
그리고 0.14를 얻습니다 (v가 작을수록 상관 관계가 낮습니다)
다른 데이터 세트 고려
Gender
City M F
B 51 49
T 24 26
이를 위해 다음을 제공합니다.
tbl = matrix(data=c(51, 49, 24, 26), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))
chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)
sqrt(chi2$statistic / sum(tbl))
p- 값은 0.72로 1에 훨씬 가깝고 v는 0.03이며 0에 매우 가깝습니다
범주 형 변수와 숫자 형 변수
이 유형의 경우 일반적 으로 일원 분산 분석 테스트를 수행 합니다. 그룹 내 분산과 그룹 내 분산을 계산 한 다음 비교합니다.
예
우리는 도넛에서 흡수 된 지방과 도넛 생산에 사용되는 지방의 유형 사이의 관계를 연구하고자합니다 (예를 들어 여기 에서 가져옴 )
변수 사이에 의존성이 있습니까? 이를 위해 ANOVA 테스트를 수행하고 p- 값이 0.007임을 알 수 있습니다. 이러한 변수 사이에는 상관 관계가 없습니다.
아르 자형
t1 = c(164, 172, 168, 177, 156, 195)
t2 = c(178, 191, 197, 182, 185, 177)
t3 = c(175, 193, 178, 171, 163, 176)
t4 = c(155, 166, 149, 164, 170, 168)
val = c(t1, t2, t3, t4)
fac = gl(n=4, k=6, labels=c('type1', 'type2', 'type3', 'type4'))
aov1 = aov(val ~ fac)
summary(aov1)
출력
Df Sum Sq Mean Sq F value Pr(>F)
fac 3 1636 545.5 5.406 0.00688 **
Residuals 20 2018 100.9
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
여기에서 p- 값을 상관의 척도로 사용할 수 있습니다.
참고 문헌