이러한 상관 기반 거리에 대해 삼각형 부등식이 충족됩니까?


13

계층 적 클러스터링의 경우 두 개의 임의 변수 X 사이의 거리를 측정하기위한 다음 두 가지 "메트릭"(정확히 말하지는 않음)을 종종 볼 수 있습니다 Y. 중 하나를 수행합니다. 하나는 삼각형 불평등을 충족 시키는가? 그렇다면 브 루트 포스 계산 이외의 다른 방법으로 어떻게 증명해야합니까? 측정 항목이 아닌 경우 간단한 카운터 예는 무엇입니까?

d1(X,Y)=1|Cor(X,Y)|,d2(X,Y)=1(Cor(X,Y))2

이 문서를 검토하고 싶을 수도 있습니다 : arxiv.org/pdf/1208.3145.pdf .
Chris

답변:


5

삼각형 부등식 은 다음과 같습니다. d1

d1(X,Z)d1(X,Y)+d1(Y,Z)1|Cor(X,Z)|1|Cor(X,Y)|+1|Cor(Y,Z)||Cor(X,Y)|+|Cor(Y,Z)|1+|Cor(X,Z)|

이기는 쉬운 불평등으로 보입니다. 와 독립적 으로 만들어 오른쪽을 최대한 작게 만들 수 있습니다 (정확히 하나) . 그런 다음 왼쪽이 1을 초과 하는 를 찾을 수 있습니까?XZY

하면 및 와 다음, 동일한 분산을 가질 마찬가지로위한 , 그래서 왼쪽이 1보다 훨씬 높고 불평등이 위반되었습니다. R에서이 위반의 예입니다. 여기서 와 는 다변량 법선의 구성 요소입니다.Y=X+ZXZCor(X,Y)=220.707Cor(Y,Z)XZ

library(MASS)
set.seed(123)
d1 <- function(a,b) {1 - abs(cor(a,b))}

Sigma    <- matrix(c(1,0,0,1), nrow=2) # covariance matrix of X and Z
matrixXZ <- mvrnorm(n=1e3, mu=c(0,0), Sigma=Sigma, empirical=TRUE)
X <- matrixXZ[,1] # mean 0, variance 1
Z <- matrixXZ[,2] # mean 0, variance 1
cor(X,Z) # nearly zero
Y <- X + Z

d1(X,Y) 
# 0.2928932
d1(Y,Z)
# 0.2928932
d1(X,Z)
# 1
d1(X,Z) <= d1(X,Y) + d1(Y,Z)
# FALSE

이 구성은 작동하지 않습니다 .d2

d2 <- function(a,b) {1 - cor(a,b)^2}
d2(X,Y) 
# 0.5
d2(Y,Z)
# 0.5
d2(X,Z)
# 1
d2(X,Z) <= d2(X,Y) + d2(Y,Z)
# TRUE

에 대한 이론적 공격을 시작하는 대신 이 단계 에서 멋진 반례가 나올 때까지 R 의 공분산 행렬 을 사용하는 것이 더 쉽다는 것을 알았습니다 . 허용 , 및 준다 :d2SigmaVar(X)=2Var(Z)=1Cov(X,Z)=1

Var(Y)=Var(X+Y)=Var(X)+Var(Z)+2Cov(X,Z)=2+1+2=5

공분산을 조사 할 수도 있습니다.

Cov(X,Y)=Cov(X,X+Z)=Cov(X,X)+Cov(X,Z)=2+1=3
Cov(Y,Z)=Cov(X+Z,Z)=Cov(X,Z)+Cov(Z,Z)=1+1=2

그러면 제곱 상관은 다음과 같습니다.

Cor(X,Z)2=Cov(X,Z)2Var(X)Var(Z)=122×1=0.5
Cor(X,Y)2=Cov(X,Y)2Var(X)Var(Y)=322×5=0.9
Cor(Y,Z)2=Cov(Y,Z)2Var(Y)Var(Z)=225×1=0.8

그런 다음 반면 및 이므로 삼각형 부등식이 실질적인 마진으로 위반됩니다.d2(X,Z)=0.5d2(X,Y)=0.1d2(Y,Z)=0.2

Sigma    <- matrix(c(2,1,1,1), nrow=2) # covariance matrix of X and Z
matrixXZ <- mvrnorm(n=1e3, mu=c(0,0), Sigma=Sigma, empirical=TRUE)
X <- matrixXZ[,1] # mean 0, variance 2
Z <- matrixXZ[,2] # mean 0, variance 1
cor(X,Z) # 0.707
Y  <- X + Z
d2 <- function(a,b) {1 - cor(a,b)^2}
d2(X,Y) 
# 0.1
d2(Y,Z)
# 0.2
d2(X,Z)
# 0.5
d2(X,Z) <= d2(X,Y) + d2(Y,Z)
# FALSE

5

, , 세 개의 벡터 (변수 또는 개인 일 수 있음)를 보자 . 그리고 각각을 z- 점수 (평균 = 0, 분산 = 1)로 표준화했습니다.XYZ

그런 다음 코사인 정리 ( "코사인의 법칙")에 따르면 두 개의 표준화 된 벡터 (예 : X 및 Y) 사이의 제곱 유클리드 거리는 . 여기서 의 코사인 유사도는 이다 피어슨 의한 벡터의 Z-표준화. 우리는 우리의 고려에서 상수 곱셈기를 안전하게 생략 할 수 있습니다 .dXY2=2(n1)(1cosXY)cosXYrXY2(n1)

따라서 질문에 표현 된 거리는공식이 상관 계수의 부호를 무시하지 않는 경우 제곱 유클리드 거리가됩니다.d1(X,Y)=1|Cor(X,Y)|

의 행렬 s는 문법 (양의 반정도)이되고 "d1"거리의 제곱근은 유클리드 거리이며, 이는 미터법입니다. 의 큰 행렬이 아닌 경우 유클리드 공간에서 거리가 잘 수렴되지 않는 경우가 종종 있습니다. 메트릭은 유클리드보다 넓은 클래스이므로, 주어진 거리 "sqrt (d1)"는 메트릭이 매우 자주 나타날 것으로 예상 할 수 있습니다.|r||r|

"d1"자체는 "유사한" 제곱 유클리드 거리 와 같 으며, 이는 확실히 비 메트릭입니다. 실제 제곱 유클리드 거리조차도 미터법이 아닙니다. 때로는 삼각형 부등식 원칙을 위반합니다. [클러스터 분석에서 제곱 유클리드 거리는 꽤 자주 사용됩니다. 그러나 이러한 경우의 대부분은 실제로 비 제곱 거리에 대한 분석을 구축하는 것을 의미하며, 제곱은 계산을위한 편리한 입력일뿐입니다.]이를 확인하려면 (제곱 유클리드 에 대해 ) 세 개의 벡터를 그리겠습니다.d

여기에 이미지 설명을 입력하십시오

벡터는 단위 길이입니다 (표준화 되었기 때문에). 각의 코사인 ( , , )은 각각 , , 입니다. 이 각도는 벡터 사이의 해당 유클리드 거리를 확산시킵니다 : , , . 간단히하기 위해 세 벡터는 모두 같은 평면에 있습니다 (따라서 와 사이의 각도는 다른 두 개의 의 합입니다 ). 거리의 제곱에 의한 삼각형 불평등 위반 이 가장 두드러지는 위치입니다.αβα+βrXYrXZrYZdXYdXZdYZXZα+β

눈으로 볼 수 있듯이 녹색 사각형 영역은 두 개의 빨간색 사각형의 합보다 뛰어납니다 : .dYZ2>dXY2+dXZ2

따라서

d1(X,Y)=1|Cor(X,Y)|

거리가 미터법이 아니라고 말할 수 있습니다. 모든 이 원래 양수 였더라도 거리는 그 자체가 미터법이 아닌 유클리드 이기 때문에 .rd2

두 번째 거리는 어떻습니까?

d2(X,Y)=1(Cor(X,Y))2

표준화 된 벡터의 경우 상관 은 이므로 는 입니다. (실제로, 는 선형 회귀 분석으로, 종속 변수와 예측 변수에 직교 하는 물체의 제곱 상관 관계인 양입니다 .)이 경우 벡터의 사인을 그리고 제곱합니다 ( 거리에 대해 이야기하고 있습니다 )rcos1r2sin21r2SSerror/SStotalsin2

여기에 이미지 설명을 입력하십시오

시각적으로 명확하지는 않지만 녹색 사각형은 다시 빨간색 영역 의 합보다 큽니다 .sinYZ2sinXY2+sinXZ2

증명 될 수있었습니다. 평면에서 입니다. 관심이 있기 때문에 양변을 제곱하십시오 .sin(α+β)=sinαcosβ+cosαsinβsin2

sin2(α+β)=sin2α(1sin2β)+(1sin2α)sin2β+2sinαcosβcosαsinβ=sin2α+sin2β2[sin2αsin2β]+2[sinαcosαsinβcosβ]

마지막 표현에서는 두 가지 중요한 용어가 괄호로 표시됩니다. 두 번째 중 두 번째가 첫 번째보다 크거나 같으면 이고 "d2"거리가 위반됩니다 삼각 불평등. 그리고 우리의 그림에서 는 약 40도이고 는 약 30 도입니다 (1 항은 2 항 ). "D2"는 미터법이 아닙니다.sin2(α+β)>sin2α+sin2βαβ.1033.2132

"d2"거리의 제곱근-사인 비 유사성 측정 값은 미터법입니다 (믿습니다). 내 서클에서 다양한 및 각도로 재생할 수 있습니다 . "d2"가 동일하지 않은 설정 (즉, 평면에없는 3 개의 벡터)에서 메트릭으로 표시되는지 여부-현재로서는 말할 수는 없지만 말할 수는 없습니다.αβ


3

내가 쓴이 프리 프린트 ( http://arxiv.org/abs/1208.3145)도 참조하십시오 . 여전히 시간이 걸리고 제대로 제출해야합니다. 초록 :

우리는 간단한 미터법 보존 도구를 사용하여 코사인 유사성과 Pearson 및 Spearman 상관 관계를 미터 거리로 변환하는 두 가지 클래스를 조사합니다. 첫 번째 클래스는 상관 관계가없는 객체를 최대한 멀리 배치합니다. 이전에 알려진 변환은이 클래스에 속합니다. 두 번째 클래스는 상관 및 반 상관 개체를 모 읍니다. 메트릭 거리를 산출하는 그러한 변환의 예는 중심 데이터에 적용될 때 사인 함수입니다.

귀하의 질문에 대한 결론은 d1 , d2 가 실제로 메트릭이 아니며 d2의 제곱근이 실제로 적절한 메트릭이라는 것입니다.


2

아니.

가장 간단한 반례 :

대한 의 거리가 당신의 무엇이든, 전혀 정의되지 않은 있다.X=(0,0)Y

모든 상수 계열은 표준 편차 이므로 정의에서 0으로 .σ=0Cor

기껏해야 그것은 상수 계열을 포함하지 않는 데이터 공간의 하위 집합에 대한 메트릭입니다.


좋은 지적! 나는 다른 곳에 언급 된 사전 인쇄에서 이것을 언급해야합니다.
micans
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.