연속 변수와 범주 변수 사이의 "상관 관계"를 어떻게 연구합니까?


19

이러한 두 가지 유형의 변수 사이의 관계를 연구하기위한 의미있는 "상관 관계"측정법은 무엇입니까?

R에서는 어떻게해야합니까?


1
"어떻게 공부하니?"라고 물어보기 전에, 범주 형 변수를 정수로 투영하는 경우, "정의는 어떻게 정의합니까"에 대한 대답이 있어야합니다.
Curious

2
당신이 할 경우 @Tomas, 관계의 예상 강도는 종류 : 무서운이다 점, 레이블을하기로 결정했습니다 방법에 따라 달라집니다
매크로

@ 매크로, 당신은 맞습니다-좋은 정의를 갖는 또 다른 확실한 주장!
Curious

@ 매크로 내가 당신의 요점을 오해하지 않는 한, 아닙니다. 상관 관계는 선형 변환에 영향을받지 않습니다. 따라서 유한 a와 b에 대해 cor (X, Y) = cor (a + bX, Y)입니다. 0/1을 1/11로 다시 레이블링하면 해당 var 또는 선형 변환을 사용하여 상관 관계가 없습니다.
Alexis

@Curious 위의 Macro에 대한 내 의견을 참조하십시오. 그리고 참고 : (1) X <- sample(c(0,1),replace=TRUE,size=100)(2) Y <- X + rnorm(100,0.5)(3) corr(Y,X)(4) X <- 1 + 10*X(5) corr(X,Y): 두 상관에 대해 동일한 결과!
Alexis

답변:


19

잠시 동안 연속 / 이산 문제를 무시하겠습니다. 기본적으로 상관 관계는 변수 간 선형 관계의 강도를 측정하며 관계의 강도를 측정하는 다른 방법을 요구하는 것 같습니다. 정보 이론 에서 몇 가지 아이디어를 보는 데 관심이있을 수 있습니다 . 특히 상호 정보 를보고 싶을 것 같습니다 . 상호 정보는 본질적으로 한 변수의 상태를 아는 것이 다른 변수에 대해 얼마나 많은지를 알려주는 방법을 제공합니다. 실제로이 정의는 대부분의 사람들이 상관 관계에 대해 생각할 때 의미하는 것에 더 가깝다고 생각합니다.

두 개의 이산 변수 X 및 Y의 경우 계산은 다음과 같습니다.

I(X;Y)=yYxXp(x,y)log(p(x,y)p(x)p(y))

두 개의 연속 변수의 경우 합을 취하지 않고 적분합니다.

I(X;Y)=YXp(x,y)log(p(x,y)p(x)p(y))dxdy

귀하의 특정 유스 케이스는 하나의 개별 및 하나의 연속입니다. 합에 대해 적분하거나 적분에 합산하는 대신 변수 중 하나를 다른 유형으로 변환하는 것이 더 쉽다고 생각합니다. 이 작업을 수행하는 일반적인 방법은하는 것 이산화 분리 쓰레기통으로 연속 변수를.

데이터를 구별하는 방법에는 여러 가지가 있으며 (예 : 등 간격) R을 사용 하려면 엔트로피 패키지 가 MI 계산에 도움이 될 것이라고 생각 합니다 .


1
감사. 그러나 MI가 corr = 1에 얼마나 높고 MI가 corr = 0에 얼마나 낮습니까?
Luna

MI의 최소값은 0이며 변수가 독립적 인 경우에만 MI = 0입니다. MI에는 상한이 일정하지 않으므로 (상한은 변수의 엔트로피와 관련이 있음) 정규화 된 버전 중 하나를 살펴 보는 것이 중요 할 수 있습니다.
Michael McGowan

6

범주 형 변수가 순서 형이고 연속 변수를 몇 개의 주파수 간격으로 비우면 감마를 사용할 수 있습니다. 서수 형식으로 쌍을 이루는 데이터에도 Kendal 's tau, Stuart 's tau 및 Somers D를 사용할 수 있습니다. 이들 모두 Proc Freq를 사용하여 SAS에서 사용할 수 있습니다. R 루틴을 사용하여 어떻게 계산되는지 모르겠습니다. : 여기에 자세한 정보를 제공하는 프레젠테이션 링크입니다 http://faculty.unlv.edu/cstream/ppts/QM722/measuresofassociation.ppt#260,5,Measures 공칭 및 서수 변수에 대한 협회는


1

범주 형 변수는 사실상 일련의 지표 변수입니다. 이러한 변수가 범주의 레이블을 다시 지정하는 데 변하지 않는다는 측정 이론의 기본 아이디어이므로 다른 변수 간의 관계를 측정 할 때 범주의 숫자 레이블을 사용하는 것은 적절하지 않습니다 (예 : '상관') . 이러한 이유로 연속 변수와 범주 형 변수 사이의 관계 측정은 후자에서 파생 된 지표 변수에 전적으로 기반해야합니다.

두 변수 사이의 '상관성'측정을 원한다면 연속 랜덤 변수 와 범주 형 변수에서 파생 된 표시기 임의 변수 I 의 상관 관계를 살펴 보는 것이 좋습니다 . 분들께 φ XI 우리는이 :ϕP(I=1)

Cov(I,X)=E(IX)E(I)E(X)=ϕ[E(X|I=1)E(X)],

이것은 다음을 제공합니다.

Corr(I,X)=ϕ1ϕE(X|I=1)E(X)S(X).

XIϕXI=1


C1,...,mC=kIkI(C=k)

Corr(Ik,X)=ϕk1ϕkE(X|C=k)E(X)S(X).

We can then define Corr(C,X)(Corr(I1,X),...,Corr(Im,X)) as the vector of correlation values for each category of the categorical random variable. This is really the only sense in which it makes sense to talk about 'correlation' for a categorical random variable.

(Note: It is trivial to show that kCov(Ik,X)=0 and so the correlation vector for a categorical random variable is subject to this constraint. This means that given knowledge of the probability vector for the categorical random variable, and the standard deviation of X, you can derive the vector from any m1 of its elements.)


The above exposition is for the true correlation values, but obviously these must be estimated in a given analysis. Estimating the indicator correlations from sample data is simple, and can be done by substitution of appropriate estimates for each of the parts. (You could use fancier estimation methods if you prefer.) Given sample data (x1,c1),...,(xn,cn) we can estimate the parts of the correlation equation as:

ϕ^k1ni=1nI(ci=k).

E^(X)x¯1ni=1nxi.

E^(X|C=k)x¯k1ni=1nxiI(ci=k)/ϕ^k.

S^(X)sX1n1i=1n(xix¯)2.

Substitution of these estimates would yield a basic estimate of the correlation vector. If you have parametric information on X then you could estimate the correlation vector directly by maximum likelihood or some other technique.


0

R package mpmi has the ability to calculate mutual information for mixed variable case, namely continuous and discrete. Although there are other statistical options like (point) biserial correlation coefficient to be useful here, it would be beneficial and highly recommended to calculate mutual information since it can detect associations other than linear and monotonic.


0

If X is a continuous random variable and Y is a categorical r.v.. the observed correlation between X and Y can be measured by

  1. the point-biserial correlation coefficient, if Y is dichotomous;
  2. the point-polyserial correlation coefficient, if Y is polychotomous with ordinal categories.

It should be noted, though, that the point-polyserial correlation is just a generalization of the point-biserial.

For a broader view, here's a table from Olsson, Drasgow & Dorans (1982)[1].

correlation coefficients

[1]: Source: Olsson, U., Drasgow, F., & Dorans, N. J. (1982). The polyserial correlation coefficient. Psychometrika, 47(3), 337–347

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.