이러한 상관 기반 거리에 대해 삼각형 부등식이 충족됩니까?

13

계층 적 클러스터링의 경우 두 개의 임의 변수 $X$ 와 사이의 거리를 측정하기위한 다음 두 가지 "메트릭"(정확히 말하지는 않음)을 종종 볼 수 있습니다 $Y$ . 중 하나를 수행합니다. 하나는 삼각형 불평등을 충족 시키는가? 그렇다면 브 루트 포스 계산 이외의 다른 방법으로 어떻게 증명해야합니까? 측정 항목이 아닌 경우 간단한 카운터 예는 무엇입니까? $\newcommand{\Cor}{\mathrm{Cor}}$

\begin{aligned} d_{1} (X, Y) & = 1 - | C o r (X, Y) |, \\ d_{2} (X, Y) & = 1 - (C o r (X, Y))^{2} \end{aligned}

$\begin{align} d_1(X,Y) &= 1-|\Cor(X,Y)|, \\ d_2(X,Y) &= 1-(\Cor(X,Y))^2 \end{align}$

— 린다
소스

이 문서를 검토하고 싶을 수도 있습니다 : arxiv.org/pdf/1208.3145.pdf .

— Chris

5

의 삼각형 부등식 은 다음과 같습니다. $d_1$ $\newcommand{\Cov}{\mathrm{Cov}}$ $\newcommand{\Cor}{\mathrm{Cor}}$ $\newcommand{\Var}{\mathrm{Var}}$

\begin{aligned} d_{1} (X, Z) & \leq d_{1} (X, Y) + d_{1} (Y, Z) \\ 1 - | C o r (X, Z) | & \leq 1 - | C o r (X, Y) | + 1 - | C o r (Y, Z) | \\ ⟹ | C o r (X, Y) | + | C o r (Y, Z) | & \leq 1 + | C o r (X, Z) | \end{aligned}

$\begin{align*} d_1(X,Z) &\leq d_1(X,Y) + d_1(Y,Z) \\ 1 - |\Cor(X,Z)| &\leq 1 - |\Cor(X,Y)| + 1 - |\Cor(Y,Z)| \\ \implies |\Cor(X,Y)| + |\Cor(Y,Z)| &\leq 1 + |\Cor(X,Z)| \end{align*}$

이기는 쉬운 불평등으로 보입니다. 와 독립적 으로 만들어 오른쪽을 최대한 작게 만들 수 있습니다 (정확히 하나) . 그런 다음 왼쪽이 1을 초과 하는 를 찾을 수 있습니까? $X$ $Z$ $Y$

하면 및 와 다음, 동일한 분산을 가질 마찬가지로위한 , 그래서 왼쪽이 1보다 훨씬 높고 불평등이 위반되었습니다. R에서이 위반의 예입니다. 여기서 와 는 다변량 법선의 구성 요소입니다. $Y=X+Z$ $X$ $Z$ $\Cor(X,Y) = \frac{\sqrt{2}}{2} \approx 0.707$ $\Cor(Y,Z)$ $X$ $Z$

library(MASS)
set.seed(123)
d1 <- function(a,b) {1 - abs(cor(a,b))}

Sigma    <- matrix(c(1,0,0,1), nrow=2) # covariance matrix of X and Z
matrixXZ <- mvrnorm(n=1e3, mu=c(0,0), Sigma=Sigma, empirical=TRUE)
X <- matrixXZ[,1] # mean 0, variance 1
Z <- matrixXZ[,2] # mean 0, variance 1
cor(X,Z) # nearly zero
Y <- X + Z

d1(X,Y) 
# 0.2928932
d1(Y,Z)
# 0.2928932
d1(X,Z)
# 1
d1(X,Z) <= d1(X,Y) + d1(Y,Z)
# FALSE

이 구성은 작동하지 않습니다 . $d_2$

d2 <- function(a,b) {1 - cor(a,b)^2}
d2(X,Y) 
# 0.5
d2(Y,Z)
# 0.5
d2(X,Z)
# 1
d2(X,Z) <= d2(X,Y) + d2(Y,Z)
# TRUE

에 대한 이론적 공격을 시작하는 대신 이 단계 에서 멋진 반례가 나올 때까지 R 의 공분산 행렬 을 사용하는 것이 더 쉽다는 것을 알았습니다 . 허용 , 및 준다 : $d_2$ Sigma $\Var(X)=2$ $\Var(Z)=1$ $\Cov(X,Z)=1$

V a r (Y) = V a r (X + Y) = V a r (X) + V a r (Z) + 2 C o v (X, Z) = 2 + 1 + 2 = 5

$\Var(Y)=\Var(X+Y)=\Var(X)+\Var(Z)+2\Cov(X,Z)=2+1+2=5$

공분산을 조사 할 수도 있습니다.

C o v (X, Y) = C o v (X, X + Z) = C o v (X, X) + C o v (X, Z) = 2 + 1 = 3

$\Cov(X,Y)=\Cov(X,X+Z)=\Cov(X,X)+\Cov(X,Z)=2+1=3$

C o v (Y, Z) = C o v (X + Z, Z) = C o v (X, Z) + C o v (Z, Z) = 1 + 1 = 2

$\Cov(Y,Z)=\Cov(X+Z,Z)=\Cov(X,Z)+\Cov(Z,Z)=1+1=2$

그러면 제곱 상관은 다음과 같습니다.

C o r (X, Z)^{2} = \frac{C o v (X, Z)^{2}}{V a r (X) V a r (Z)} = \frac{1^{2}}{2 \times 1} = 0.5

$\Cor(X,Z)^2 = \frac{\Cov(X,Z)^2}{\Var(X)\Var(Z)}=\frac{1^2}{2\times1}=0.5$

C o r (X, Y)^{2} = \frac{C o v (X, Y)^{2}}{V a r (X) V a r (Y)} = \frac{3^{2}}{2 \times 5} = 0.9

$\Cor(X,Y)^2 = \frac{\Cov(X,Y)^2}{\Var(X)\Var(Y)}=\frac{3^2}{2\times5}=0.9$

C o r (Y, Z)^{2} = \frac{C o v (Y, Z)^{2}}{V a r (Y) V a r (Z)} = \frac{2^{2}}{5 \times 1} = 0.8

$\Cor(Y,Z)^2 = \frac{\Cov(Y,Z)^2}{\Var(Y)\Var(Z)}=\frac{2^2}{5\times1}=0.8$

그런 다음 반면 및 이므로 삼각형 부등식이 실질적인 마진으로 위반됩니다. $d_2(X,Z)=0.5$ $d_2(X,Y)=0.1$ $d_2(Y,Z)=0.2$

Sigma    <- matrix(c(2,1,1,1), nrow=2) # covariance matrix of X and Z
matrixXZ <- mvrnorm(n=1e3, mu=c(0,0), Sigma=Sigma, empirical=TRUE)
X <- matrixXZ[,1] # mean 0, variance 2
Z <- matrixXZ[,2] # mean 0, variance 1
cor(X,Z) # 0.707
Y  <- X + Z
d2 <- function(a,b) {1 - cor(a,b)^2}
d2(X,Y) 
# 0.1
d2(Y,Z)
# 0.2
d2(X,Z)
# 0.5
d2(X,Z) <= d2(X,Y) + d2(Y,Z)
# FALSE

— 은어
소스

5

, , 세 개의 벡터 (변수 또는 개인 일 수 있음)를 보자 . 그리고 각각을 z- 점수 (평균 = 0, 분산 = 1)로 표준화했습니다. $X$ $Y$ $Z$

$\newcommand{\Cor}{\mathrm{Cor}}$

그런 다음 코사인 정리 ( "코사인의 법칙")에 따르면 두 개의 표준화 된 벡터 (예 : X 및 Y) 사이의 제곱 유클리드 거리는 . 여기서 의 코사인 유사도는 이다 피어슨 의한 벡터의 Z-표준화. 우리는 우리의 고려에서 상수 곱셈기를 안전하게 생략 할 수 있습니다 . $d_{XY}^2 = 2(n-1)(1-\cos_{XY})$ $\cos_{XY}$ $r_{XY}$ $2(n-1)$

따라서 질문에 표현 된 거리는공식이 상관 계수의 부호를 무시하지 않는 경우 제곱 유클리드 거리가됩니다. $d_1(X,Y)=1-|\Cor(X,Y)|$

의 행렬 s는 문법 (양의 반정도)이되고 "d1"거리의 제곱근은 유클리드 거리이며, 이는 미터법입니다. 의 큰 행렬이 아닌 경우 유클리드 공간에서 거리가 잘 수렴되지 않는 경우가 종종 있습니다. 메트릭은 유클리드보다 넓은 클래스이므로, 주어진 거리 "sqrt (d1)"는 메트릭이 매우 자주 나타날 것으로 예상 할 수 있습니다. $|r|$ $|r|$

"d1"자체는 "유사한" 제곱 유클리드 거리 와 같 으며, 이는 확실히 비 메트릭입니다. 실제 제곱 유클리드 거리조차도 미터법이 아닙니다. 때로는 삼각형 부등식 원칙을 위반합니다. [클러스터 분석에서 제곱 유클리드 거리는 꽤 자주 사용됩니다. 그러나 이러한 경우의 대부분은 실제로 비 제곱 거리에 대한 분석을 구축하는 것을 의미하며, 제곱은 계산을위한 편리한 입력일뿐입니다.]이를 확인하려면 (제곱 유클리드 에 대해 ) 세 개의 벡터를 그리겠습니다. $d$

여기에 이미지 설명을 입력하십시오

벡터는 단위 길이입니다 (표준화 되었기 때문에). 각의 코사인 ( , , )은 각각 , , 입니다. 이 각도는 벡터 사이의 해당 유클리드 거리를 확산시킵니다 : , , . 간단히하기 위해 세 벡터는 모두 같은 평면에 있습니다 (따라서 와 사이의 각도는 다른 두 개의 의 합입니다 ). 거리의 제곱에 의한 삼각형 불평등 위반 이 가장 두드러지는 위치입니다. $\alpha$ $\beta$ $\alpha+\beta$ $r_{XY}$ $r_{XZ}$ $r_{YZ}$ $d_{XY}$ $d_{XZ}$ $d_{YZ}$ $X$ $Z$ $\alpha+\beta$

눈으로 볼 수 있듯이 녹색 사각형 영역은 두 개의 빨간색 사각형의 합보다 뛰어납니다 : . $d_{YZ}^2 > d_{XY}^2 + d_{XZ}^2$

따라서

$d_1(X,Y)=1-|\Cor(X,Y)|$

거리가 미터법이 아니라고 말할 수 있습니다. 모든 이 원래 양수 였더라도 거리는 그 자체가 미터법이 아닌 유클리드 이기 때문에 . $r$ $d^2$

두 번째 거리는 어떻습니까?

$d_2(X,Y)=1-(\Cor(X,Y))^2$

표준화 된 벡터의 경우 상관 은 이므로 는 입니다. (실제로, 는 선형 회귀 분석으로, 종속 변수와 예측 변수에 직교 하는 물체의 제곱 상관 관계인 양입니다 .)이 경우 벡터의 사인을 그리고 제곱합니다 ( 거리에 대해 이야기하고 있습니다 ) $r$ $\cos$ $1-r^2$ $\sin^2$ $1-r^2$ SSerror/SStotal $\sin^2$

여기에 이미지 설명을 입력하십시오

시각적으로 명확하지는 않지만 녹색 사각형은 다시 빨간색 영역 의 합보다 큽니다 . $\sin_{YZ}^2$ $\sin_{XY}^2 + \sin_{XZ}^2$

증명 될 수있었습니다. 평면에서 입니다. 관심이 있기 때문에 양변을 제곱하십시오 . $\sin(\alpha+\beta) = \sin\alpha \cos\beta + \cos\alpha \sin\beta$ $\sin^2$

\begin{aligned} \sin^{2} (α + β) & = \sin^{2} α (1 - \sin^{2} β) + (1 - \sin^{2} α) \sin^{2} β + 2 \sin α \cos β \cos α \sin β \\ = \sin^{2} α + \sin^{2} β - 2 [\sin^{2} α \sin^{2} β] + 2 [\sin α \cos α \sin β \cos β] \end{aligned}

$\begin{align} \sin^2(\alpha+\beta) &= \sin^2\alpha (1-\sin^2\beta) + (1-\sin^2\alpha) \sin^2\beta + 2 \sin\alpha \cos\beta \cos\alpha \sin\beta \\ &= \sin^2\alpha + \sin^2\beta -2 [\sin^2\alpha \sin^2\beta] +2 [\sin\alpha \cos\alpha \sin\beta \cos\beta] \end{align}$

마지막 표현에서는 두 가지 중요한 용어가 괄호로 표시됩니다. 두 번째 중 두 번째가 첫 번째보다 크거나 같으면 이고 "d2"거리가 위반됩니다 삼각 불평등. 그리고 우리의 그림에서 는 약 40도이고 는 약 30 도입니다 (1 항은 2 항 ). "D2"는 미터법이 아닙니다. $\sin^2(\alpha+\beta) > \sin^2\alpha + \sin^2\beta$ $\alpha$ $\beta$ .1033.2132

"d2"거리의 제곱근-사인 비 유사성 측정 값은 미터법입니다 (믿습니다). 내 서클에서 다양한 및 각도로 재생할 수 있습니다 . "d2"가 동일하지 않은 설정 (즉, 평면에없는 3 개의 벡터)에서 메트릭으로 표시되는지 여부-현재로서는 말할 수는 없지만 말할 수는 없습니다. $\alpha$ $\beta$

— ttnphns
소스

3

내가 쓴이 프리 프린트 ( http://arxiv.org/abs/1208.3145)도 참조하십시오 . 여전히 시간이 걸리고 제대로 제출해야합니다. 초록 :

우리는 간단한 미터법 보존 도구를 사용하여 코사인 유사성과 Pearson 및 Spearman 상관 관계를 미터 거리로 변환하는 두 가지 클래스를 조사합니다. 첫 번째 클래스는 상관 관계가없는 객체를 최대한 멀리 배치합니다. 이전에 알려진 변환은이 클래스에 속합니다. 두 번째 클래스는 상관 및 반 상관 개체를 모 읍니다. 메트릭 거리를 산출하는 그러한 변환의 예는 중심 데이터에 적용될 때 사인 함수입니다.

귀하의 질문에 대한 결론은 d1 , d2 가 실제로 메트릭이 아니며 d2의 제곱근이 실제로 적절한 메트릭이라는 것입니다.

— 미칸
소스

2

아니.

가장 간단한 반례 :

대한 의 거리가 당신의 무엇이든, 전혀 정의되지 않은 있다. $X=(0,0)$ $Y$

모든 상수 계열은 표준 편차 이므로 정의에서 0으로 . $\sigma=0$ $Cor$

기껏해야 그것은 상수 계열을 포함하지 않는 데이터 공간의 하위 집합에 대한 메트릭입니다.

— 종료-익명-무스
소스

좋은 지적! 나는 다른 곳에 언급 된 사전 인쇄에서 이것을 언급해야합니다.

— micans