이러한 두 가지 유형의 변수 사이의 관계를 연구하기위한 의미있는 "상관 관계"측정법은 무엇입니까?
R에서는 어떻게해야합니까?
X <- sample(c(0,1),replace=TRUE,size=100)
(2) Y <- X + rnorm(100,0.5)
(3) corr(Y,X)
(4) X <- 1 + 10*X
(5) corr(X,Y)
: 두 상관에 대해 동일한 결과!
이러한 두 가지 유형의 변수 사이의 관계를 연구하기위한 의미있는 "상관 관계"측정법은 무엇입니까?
R에서는 어떻게해야합니까?
X <- sample(c(0,1),replace=TRUE,size=100)
(2) Y <- X + rnorm(100,0.5)
(3) corr(Y,X)
(4) X <- 1 + 10*X
(5) corr(X,Y)
: 두 상관에 대해 동일한 결과!
답변:
잠시 동안 연속 / 이산 문제를 무시하겠습니다. 기본적으로 상관 관계는 변수 간 선형 관계의 강도를 측정하며 관계의 강도를 측정하는 다른 방법을 요구하는 것 같습니다. 정보 이론 에서 몇 가지 아이디어를 보는 데 관심이있을 수 있습니다 . 특히 상호 정보 를보고 싶을 것 같습니다 . 상호 정보는 본질적으로 한 변수의 상태를 아는 것이 다른 변수에 대해 얼마나 많은지를 알려주는 방법을 제공합니다. 실제로이 정의는 대부분의 사람들이 상관 관계에 대해 생각할 때 의미하는 것에 더 가깝다고 생각합니다.
두 개의 이산 변수 X 및 Y의 경우 계산은 다음과 같습니다.
두 개의 연속 변수의 경우 합을 취하지 않고 적분합니다.
귀하의 특정 유스 케이스는 하나의 개별 및 하나의 연속입니다. 합에 대해 적분하거나 적분에 합산하는 대신 변수 중 하나를 다른 유형으로 변환하는 것이 더 쉽다고 생각합니다. 이 작업을 수행하는 일반적인 방법은하는 것 이산화 분리 쓰레기통으로 연속 변수를.
데이터를 구별하는 방법에는 여러 가지가 있으며 (예 : 등 간격) R을 사용 하려면 엔트로피 패키지 가 MI 계산에 도움이 될 것이라고 생각 합니다 .
범주 형 변수가 순서 형이고 연속 변수를 몇 개의 주파수 간격으로 비우면 감마를 사용할 수 있습니다. 서수 형식으로 쌍을 이루는 데이터에도 Kendal 's tau, Stuart 's tau 및 Somers D를 사용할 수 있습니다. 이들 모두 Proc Freq를 사용하여 SAS에서 사용할 수 있습니다. R 루틴을 사용하여 어떻게 계산되는지 모르겠습니다. : 여기에 자세한 정보를 제공하는 프레젠테이션 링크입니다 http://faculty.unlv.edu/cstream/ppts/QM722/measuresofassociation.ppt#260,5,Measures 공칭 및 서수 변수에 대한 협회는
범주 형 변수는 사실상 일련의 지표 변수입니다. 이러한 변수가 범주의 레이블을 다시 지정하는 데 변하지 않는다는 측정 이론의 기본 아이디어이므로 다른 변수 간의 관계를 측정 할 때 범주의 숫자 레이블을 사용하는 것은 적절하지 않습니다 (예 : '상관') . 이러한 이유로 연속 변수와 범주 형 변수 사이의 관계 측정은 후자에서 파생 된 지표 변수에 전적으로 기반해야합니다.
두 변수 사이의 '상관성'측정을 원한다면 연속 랜덤 변수 와 범주 형 변수에서 파생 된 표시기 임의 변수 I 의 상관 관계를 살펴 보는 것이 좋습니다 . 분들께 φ ≡ 우리는이 :
이것은 다음을 제공합니다.
We can then define as the vector of correlation values for each category of the categorical random variable. This is really the only sense in which it makes sense to talk about 'correlation' for a categorical random variable.
(Note: It is trivial to show that and so the correlation vector for a categorical random variable is subject to this constraint. This means that given knowledge of the probability vector for the categorical random variable, and the standard deviation of , you can derive the vector from any of its elements.)
The above exposition is for the true correlation values, but obviously these must be estimated in a given analysis. Estimating the indicator correlations from sample data is simple, and can be done by substitution of appropriate estimates for each of the parts. (You could use fancier estimation methods if you prefer.) Given sample data we can estimate the parts of the correlation equation as:
Substitution of these estimates would yield a basic estimate of the correlation vector. If you have parametric information on then you could estimate the correlation vector directly by maximum likelihood or some other technique.
R package mpmi has the ability to calculate mutual information for mixed variable case, namely continuous and discrete. Although there are other statistical options like (point) biserial correlation coefficient to be useful here, it would be beneficial and highly recommended to calculate mutual information since it can detect associations other than linear and monotonic.
If is a continuous random variable and is a categorical r.v.. the observed correlation between and can be measured by
It should be noted, though, that the point-polyserial correlation is just a generalization of the point-biserial.
For a broader view, here's a table from Olsson, Drasgow & Dorans (1982)[1].
[1]: Source: Olsson, U., Drasgow, F., & Dorans, N. J. (1982). The polyserial correlation coefficient. Psychometrika, 47(3), 337–347