답변:
의 삼각형 부등식 은 다음과 같습니다.
이기는 쉬운 불평등으로 보입니다. 와 독립적 으로 만들어 오른쪽을 최대한 작게 만들 수 있습니다 (정확히 하나) . 그런 다음 왼쪽이 1을 초과 하는 를 찾을 수 있습니까?
하면 및 와 다음, 동일한 분산을 가질 마찬가지로위한 , 그래서 왼쪽이 1보다 훨씬 높고 불평등이 위반되었습니다. R에서이 위반의 예입니다. 여기서 와 는 다변량 법선의 구성 요소입니다.
library(MASS)
set.seed(123)
d1 <- function(a,b) {1 - abs(cor(a,b))}
Sigma <- matrix(c(1,0,0,1), nrow=2) # covariance matrix of X and Z
matrixXZ <- mvrnorm(n=1e3, mu=c(0,0), Sigma=Sigma, empirical=TRUE)
X <- matrixXZ[,1] # mean 0, variance 1
Z <- matrixXZ[,2] # mean 0, variance 1
cor(X,Z) # nearly zero
Y <- X + Z
d1(X,Y)
# 0.2928932
d1(Y,Z)
# 0.2928932
d1(X,Z)
# 1
d1(X,Z) <= d1(X,Y) + d1(Y,Z)
# FALSE
이 구성은 작동하지 않습니다 .
d2 <- function(a,b) {1 - cor(a,b)^2}
d2(X,Y)
# 0.5
d2(Y,Z)
# 0.5
d2(X,Z)
# 1
d2(X,Z) <= d2(X,Y) + d2(Y,Z)
# TRUE
에 대한 이론적 공격을 시작하는 대신 이 단계 에서 멋진 반례가 나올 때까지 R 의 공분산 행렬 을 사용하는 것이 더 쉽다는 것을 알았습니다 . 허용 , 및 준다 :Sigma
공분산을 조사 할 수도 있습니다.
그러면 제곱 상관은 다음과 같습니다.
그런 다음 반면 및 이므로 삼각형 부등식이 실질적인 마진으로 위반됩니다.
Sigma <- matrix(c(2,1,1,1), nrow=2) # covariance matrix of X and Z
matrixXZ <- mvrnorm(n=1e3, mu=c(0,0), Sigma=Sigma, empirical=TRUE)
X <- matrixXZ[,1] # mean 0, variance 2
Z <- matrixXZ[,2] # mean 0, variance 1
cor(X,Z) # 0.707
Y <- X + Z
d2 <- function(a,b) {1 - cor(a,b)^2}
d2(X,Y)
# 0.1
d2(Y,Z)
# 0.2
d2(X,Z)
# 0.5
d2(X,Z) <= d2(X,Y) + d2(Y,Z)
# FALSE
, , 세 개의 벡터 (변수 또는 개인 일 수 있음)를 보자 . 그리고 각각을 z- 점수 (평균 = 0, 분산 = 1)로 표준화했습니다.
그런 다음 코사인 정리 ( "코사인의 법칙")에 따르면 두 개의 표준화 된 벡터 (예 : X 및 Y) 사이의 제곱 유클리드 거리는 . 여기서 의 코사인 유사도는 이다 피어슨 의한 벡터의 Z-표준화. 우리는 우리의 고려에서 상수 곱셈기를 안전하게 생략 할 수 있습니다 .
따라서 질문에 표현 된 거리는공식이 상관 계수의 부호를 무시하지 않는 경우 제곱 유클리드 거리가됩니다.
의 행렬 s는 문법 (양의 반정도)이되고 "d1"거리의 제곱근은 유클리드 거리이며, 이는 미터법입니다. 의 큰 행렬이 아닌 경우 유클리드 공간에서 거리가 잘 수렴되지 않는 경우가 종종 있습니다. 메트릭은 유클리드보다 넓은 클래스이므로, 주어진 거리 "sqrt (d1)"는 메트릭이 매우 자주 나타날 것으로 예상 할 수 있습니다.
"d1"자체는 "유사한" 제곱 유클리드 거리 와 같 으며, 이는 확실히 비 메트릭입니다. 실제 제곱 유클리드 거리조차도 미터법이 아닙니다. 때로는 삼각형 부등식 원칙을 위반합니다. [클러스터 분석에서 제곱 유클리드 거리는 꽤 자주 사용됩니다. 그러나 이러한 경우의 대부분은 실제로 비 제곱 거리에 대한 분석을 구축하는 것을 의미하며, 제곱은 계산을위한 편리한 입력일뿐입니다.]이를 확인하려면 (제곱 유클리드 에 대해 ) 세 개의 벡터를 그리겠습니다.
벡터는 단위 길이입니다 (표준화 되었기 때문에). 각의 코사인 ( , , )은 각각 , , 입니다. 이 각도는 벡터 사이의 해당 유클리드 거리를 확산시킵니다 : , , . 간단히하기 위해 세 벡터는 모두 같은 평면에 있습니다 (따라서 와 사이의 각도는 다른 두 개의 의 합입니다 ). 거리의 제곱에 의한 삼각형 불평등 위반 이 가장 두드러지는 위치입니다.
눈으로 볼 수 있듯이 녹색 사각형 영역은 두 개의 빨간색 사각형의 합보다 뛰어납니다 : .
따라서
거리가 미터법이 아니라고 말할 수 있습니다. 모든 이 원래 양수 였더라도 거리는 그 자체가 미터법이 아닌 유클리드 이기 때문에 .
두 번째 거리는 어떻습니까?
표준화 된 벡터의 경우 상관 은 이므로 는 입니다. (실제로, 는 선형 회귀 분석으로, 종속 변수와 예측 변수에 직교 하는 물체의 제곱 상관 관계인 양입니다 .)이 경우 벡터의 사인을 그리고 제곱합니다 ( 거리에 대해 이야기하고 있습니다 )SSerror/SStotal
시각적으로 명확하지는 않지만 녹색 사각형은 다시 빨간색 영역 의 합보다 큽니다 .
증명 될 수있었습니다. 평면에서 입니다. 관심이 있기 때문에 양변을 제곱하십시오 .
마지막 표현에서는 두 가지 중요한 용어가 괄호로 표시됩니다. 두 번째 중 두 번째가 첫 번째보다 크거나 같으면 이고 "d2"거리가 위반됩니다 삼각 불평등. 그리고 우리의 그림에서 는 약 40도이고 는 약 30 도입니다 (1 항은 2 항 ). "D2"는 미터법이 아닙니다..1033
.2132
"d2"거리의 제곱근-사인 비 유사성 측정 값은 미터법입니다 (믿습니다). 내 서클에서 다양한 및 각도로 재생할 수 있습니다 . "d2"가 동일하지 않은 설정 (즉, 평면에없는 3 개의 벡터)에서 메트릭으로 표시되는지 여부-현재로서는 말할 수는 없지만 말할 수는 없습니다.
내가 쓴이 프리 프린트 ( http://arxiv.org/abs/1208.3145)도 참조하십시오 . 여전히 시간이 걸리고 제대로 제출해야합니다. 초록 :
우리는 간단한 미터법 보존 도구를 사용하여 코사인 유사성과 Pearson 및 Spearman 상관 관계를 미터 거리로 변환하는 두 가지 클래스를 조사합니다. 첫 번째 클래스는 상관 관계가없는 객체를 최대한 멀리 배치합니다. 이전에 알려진 변환은이 클래스에 속합니다. 두 번째 클래스는 상관 및 반 상관 개체를 모 읍니다. 메트릭 거리를 산출하는 그러한 변환의 예는 중심 데이터에 적용될 때 사인 함수입니다.
귀하의 질문에 대한 결론은 d1 , d2 가 실제로 메트릭이 아니며 d2의 제곱근이 실제로 적절한 메트릭이라는 것입니다.