두 범주 형 변수와 범주 형 변수 및 연속 변수 사이의 상관 관계를 얻는 방법은 무엇입니까?


63

회귀 모델을 작성 중이며 상관 관계를 확인하기 위해 아래를 계산해야합니다.

  1. 2 개의 다단계 범주 형 변수 간의 상관
  2. 다단계 범주 형 변수와 연속 변수의 상관 관계
  3. 다단계 범주 형 변수에 대한 VIF (분산 인플레이션 계수)

Pearson은 2 개의 연속 변수에 대해서만 작동하기 때문에 위 시나리오에서 Pearson 상관 계수를 사용하는 것이 잘못되었다고 생각합니다.

아래 질문에 답하십시오

  1. 위의 경우에 가장 적합한 상관 계수는 무엇입니까?
  2. VIF 계산은 연속 데이터에만 적용되므로 대안은 무엇입니까?
  3. 제안한 상관 계수를 사용하기 전에 확인해야하는 가정은 무엇입니까?
  4. SAS & R에서 어떻게 구현합니까?

4
CV.SE 는 이와 같은 더 이론적 인 통계에 대한 질문에 더 적합한 곳 이라고 말하고 싶습니다 . 그렇지 않다면, 귀하의 질문에 대한 답변은 상황에 따라 다릅니다. 때로는 여러 수준을 더미 변수로 병합하는 것이 합리적 일 수 있습니다. 다른 경우에는 다항 분포 등에 따라 데이터를 모델링 할 가치가 있습니다.
ffriend

범주 형 변수가 정렬되어 있습니까? 그렇다면, 이것은 원하는 상관 유형에 영향을 줄 수 있습니다.
nassimhddd

나는 내 연구에서 같은 문제에 직면해야합니다. 하지만이 문제를 해결하는 올바른 방법을 찾을 수 없습니다. 그러니 당신이 찾은 참고 문헌을 나에게 충분히 친절하게 보내 주시기 바랍니다.
user89797

p- 값이 상관 계수 r과 같다는 것을 의미합니까?
Ayo Emma

범주 형 대 연속 형에 대한 ANOVA를 사용한 위의 솔루션이 좋습니다. 작은 Hiccough. p- 값이 작을수록 두 변수 사이의 "적합"이 더 좋습니다. 다른 방법은 아닙니다.
myudelson

답변:


73

두 가지 범주 형 변수

카이-제곱 독립성 검정을 통해 두 범주 형 변수가 독립적인지 확인할 수 있습니다.

이는 일반적인 카이-제곱 검정입니다 . 두 변수가 독립적이라고 가정하면 이러한 변수에 대한 우연성 표 값이 균일하게 분포되어야합니다. 그런 다음 실제 값이 얼마나 균일한지 확인합니다.

이 테스트에서 따르는 상관 관계 측정 값 인 Crammer 's V 도 있습니다

두 개의 변수가 있다고 가정

  • 성별 : 남녀
  • 도시 : 블루 아 및 투어

우리는 다음과 같은 데이터를 관찰했다 :

관측 값

성별과 도시는 독립적입니까? Chi-Squred 테스트를 수행하겠습니다. 귀무 가설 : 독립적이며 대립 가설은 어떤 방식 으로든 상관되어 있다는 것입니다.

귀무 가설 하에서 우리는 균일 한 분포를 가정합니다. 예상 값은 다음과 같습니다.

기대 값

따라서 카이 제곱 테스트를 실행하면 결과 p- 값은이 두 변수 사이의 상관 관계를 나타내는 척도로 볼 수 있습니다.

Crammer 's V를 계산하기 위해 먼저 표본의 크기 인 정규화 계수 chi-squared-max를 찾아 카이-제곱을 나누고 제곱근을 취합니다.

크 래머 v

아르 자형

tbl = matrix(data=c(55, 45, 20, 30), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))

chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)

여기서 p 값은 0.08로 상당히 작지만 여전히 독립 가설을 기각하기에는 충분하지 않습니다. 여기서 "상관"은 0.08이라고 말할 수 있습니다.

우리는 또한 V를 계산합니다 :

sqrt(chi2$statistic / sum(tbl))

그리고 0.14를 얻습니다 (v가 작을수록 상관 관계가 낮습니다)

다른 데이터 세트 고려

    Gender
City  M  F
   B 51 49
   T 24 26

이를 위해 다음을 제공합니다.

tbl = matrix(data=c(51, 49, 24, 26), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))

chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)

sqrt(chi2$statistic / sum(tbl))

p- 값은 0.72로 1에 훨씬 가깝고 v는 0.03이며 0에 매우 가깝습니다

범주 형 변수와 숫자 형 변수

이 유형의 경우 일반적 으로 일원 분산 분석 테스트를 수행 합니다. 그룹 내 분산과 그룹 내 분산을 계산 한 다음 비교합니다.

우리는 도넛에서 흡수 된 지방과 도넛 생산에 사용되는 지방의 유형 사이의 관계를 연구하고자합니다 (예를 들어 여기 에서 가져옴 )

도넛

변수 사이에 의존성이 있습니까? 이를 위해 ANOVA 테스트를 수행하고 p- 값이 0.007임을 알 수 있습니다. 이러한 변수 사이에는 상관 관계가 없습니다.

아르 자형

t1 = c(164, 172, 168, 177, 156, 195)
t2 = c(178, 191, 197, 182, 185, 177)
t3 = c(175, 193, 178, 171, 163, 176)
t4 = c(155, 166, 149, 164, 170, 168)

val = c(t1, t2, t3, t4)
fac = gl(n=4, k=6, labels=c('type1', 'type2', 'type3', 'type4'))

aov1 = aov(val ~ fac)
summary(aov1)

출력

            Df Sum Sq Mean Sq F value  Pr(>F)   
fac          3   1636   545.5   5.406 0.00688 **
Residuals   20   2018   100.9                   
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

여기에서 p- 값을 상관의 척도로 사용할 수 있습니다.

참고 문헌


1
자세한 내용은 Alexey에게 감사드립니다. 더 많은 연구를 바탕으로 polyserial 및 polychloric correlation에 대해 발견했습니다. 당신의 접근 방식이 이것들보다 어떻게 더 낫습니까? 설명해주세요
GeorgeOfTheRF

1
나는 이것들을 모른다, 미안.
Alexey Grigorev

@Alexey의 Fasntastic 답변. 귀하의 의견을 읽은 후 온라인에서 폴리 코릭 / 폴리 시리즈 상관 관계를 읽습니다. 두 개의 관측 변수로부터 두 개의 잠재 변수 사이의 상관 관계를 추정하는 기술입니다. 나는 그것이 당신이 요구 한 것이라고 생각하지 않으며 Alexey의 대답과 비교할 수 없습니다.
KarthikS

1
첫 번째 예는 범주 대 범주에 관한 것이 아니라 범주 대 숫자에 관한 것입니다. 실제로 당신은 숫자 인 남성 (여성)의 수에 대해 도시 를 보고 있습니다. 범주 범주가 될 것이다 대, 말, 도시눈의 색 이나 모양 또는 다른 것,하지만 수단으로 그것은 성별의 대표 수있을 것이다.
18시 35 분

1
@AlexeyGrigorev 데이터가 정규 분포가 아닌 경우 kruskal-wallic대신에 사용해야 one-way anova합니까? 미리 감사드립니다.
ebrahimi
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.