답변:
Pearson과 Spearman 상관 관계는 y 및 x 와 같은 두 이진 변수 모두에 대해 과 이있는 한 정의됩니다 . 두 변수의 산포도를 생각하면 의미가 무엇인지에 대한 질적 아이디어를 쉽게 얻을 수 있습니다. 분명히 네 가지 가능성 ( 0 , 0 ) , ( 0 , 1 ) , ( 1 , 0 ) , ( 1 , 1 )(시각화를 위해 동일한 지점을 흔들어 지 터링하는 것이 좋습니다.) 예를 들어, 두 벡터가 동일한 모든 상황에서 각각 0과 1을 각각 갖는 경우 로 정의 되며 상관 관계는 반드시 입니다. 마찬가지로 이고 상관 관계는 있습니다.
이진 벡터에 대해 다음과 같은 특수한 유사성 메트릭이 있습니다.
기타
이진 데이터에 Pearson의 상관 계수를 사용하지 않는 것이 좋습니다. 다음 카운터 예를 참조하십시오.
set.seed(10)
a = rbinom(n=100, size=1, prob=0.9)
b = rbinom(n=100, size=1, prob=0.9)
대부분의 경우 둘 다 1
table(a,b)
> table(a,b)
b
a 0 1
0 0 3
1 9 88
그러나 상관 관계는 이것을 보여주지 않습니다.
cor(a, b, method="pearson")
> cor(a, b, method="pearson")
[1] -0.05530639
그러나 Jaccard 인덱스 와 같은 이진 유사성 측정 값 은 훨씬 더 높은 연관성을 보여줍니다.
install.packages("clusteval")
library('clusteval')
cluster_similarity(a,b, similarity="jaccard", method="independence")
> cluster_similarity(a,b, similarity="jaccard", method="independence")
[1] 0.7854966
왜 이런거야? 간단한 이변 량 회귀 분석을 참조하십시오.
plot(jitter(a, factor = .25), jitter(b, factor = .25), xlab="a", ylab="b", pch=15, col="blue", ylim=c(-0.05,1.05), xlim=c(-0.05,1.05))
abline(lm(a~b), lwd=2, col="blue")
text(.5,.9,expression(paste(rho, " = -0.055")))