거리 상관 관계 계산 이해


15

내가 이해하는 한, 거리 상관 은 두 숫자 변수 사이에 관계가 있는지 확인하는 강력하고 보편적 인 방법입니다. 예를 들어, 숫자 쌍이 있다면 :

(x1, y1)
(x2, y2)
...
(xn, yn)

거리 상관 관계를 사용하여 두 변수 ( xy) 사이에 (선형 일 필요는없는) 관계가 있는지 확인할 수 있습니다 . 더욱이, xy다른 차원의 벡터 일 수있다.

거리 상관 관계를 계산하는 것은 비교적 쉽습니다. 먼저 xi 를 사용하여 거리 행렬을 계산합니다. 그런 다음 사용하여 거리 행렬을 계산 yi합니다. 두 거리 행렬들은 동일한 크기를 가질 것이기 때문에의 수 xiyi 동일 (가 쌍으로하기 때문에).

이제 페어링 할 수있는 거리가 많이 있습니다. 예를 들어 (2,3), 제 1 거리 매트릭스 (2,3)로부터의 요소 는 제 2 거리 매트릭스로부터의 요소와 쌍을 이룬다 . 따라서 거리 쌍 세트가 있으며이를 사용하여 상관 관계 (거리 사이의 상관 관계)를 계산할 수 있습니다.

두 가지 유형의 거리가 서로 관련되어있는 경우 가까운 X는 일반적으로 가까운 Y를 의미합니다. 예를 들어, 만약 근접이다 X (13) 는 것을 의미보다는 Y 7 가능성 가깝게 될 13 . 따라서 X와 Y가 종속적이라고 결론 내릴 수 있습니다.x7x13y7y13

합리적으로 들리지만 이해하지 못하는 두 가지 측면이 있습니다.

먼저 거리 상관 관계를 계산하기 위해 두 개의 거리 행렬을 직접 사용하지 않습니다. 우리는 이중 중심화 절차를 적용합니다 (따라서 행 (또는 열)의 모든 요소의 합은 0과 같습니다). 왜해야하는지 이해가되지 않습니다. 이 단계의 논리 (또는 직관)는 무엇입니까?

둘째 , 원래 거리 행렬에서 대각선에 0이 있습니다. 따라서 거리 간의 상관 관계를 계산하면 첫 번째 행렬의 많은 0이 두 번째 행렬의 해당하는 0과 쌍을 이루기 때문에 통계적으로 유의 한 상관 관계가 있습니다. 이 문제는 어떻게 해결됩니까?

답변:


16

거리 공분산 / 상관 (= 브라운 공분산 / 상관)은 다음 단계로 계산됩니다.

  1. N변수 의한 사례 와 변수 Y에 의한 다른 유사 행렬 사이의 유클리드 거리의 행렬을 계산 합니다. 두 가지 정량적 특징 인 X 또는 Y 는 단 변량뿐만 아니라 다변량 일 수도 있습니다.XYXY
  2. 각 행렬의 이중 센터링을 수행하십시오. 이중 센터링 이 일반적으로 수행되는 방법을 참조하십시오 . 그러나 우리의 경우, 그것은 할 일을 할 때 하지 광장 거리 처음에 의해 분할하지 않는다 결국. 요소의 행, 열 평균 및 전체 평균이 0이됩니다.2
  3. 두 개의 결과 행렬을 요소별로 곱하고 합을 계산하십시오. 또는 동등하게 행렬을 두 개의 열 벡터로 풀고 합산 된 곱을 계산합니다.
  4. 요소 수로 나눈 평균 N^2입니다.
  5. 제곱근을 취하십시오. 결과는 XY 사이 의 거리 공분산 입니다.XY
  6. 거리 분산은 의 거리 공분산이며 , Y 는 자체 자아를 갖습니다. 마찬가지로 3-4-5 점을 계산합니다.XY
  7. 거리 상관 관계 는 일반적인 공분산과 분산 쌍에서 피어슨 상관 관계를 얻는 방법과 유사하게 세 개의 숫자로 구합니다. 공분산을 두 분산의 곱의 제곱근으로 나눕니다.

거리 공분산 (및 상관)은 거리 자체 간의 공분산 (또는 상관) 이 아닙니다 . "이중 중심"행렬이 구성 되는 특수 스칼라 곱 (점 곱 ) 간의 공분산 (상관) 입니다.

유클리드 공간에서 스칼라 곱은 해당 거리와 일관되게 유사 합니다. 두 점 (벡터)이있는 경우 정보를 잃지 않고 거리 대신 스칼라 곱으로 근접성을 표현할 수 있습니다.

그러나 스칼라 곱을 계산하려면 공간의 원점을 참조해야합니다 (벡터는 원점에서 나옴). 일반적으로 원점은 원하는 곳에 원점을 배치 할 수 있지만, 점과 구름의 기하학적 중간 점 인 평균에 원점을 배치하는 것이 종종 편리합니다. 평균은 구름이 차지하는 공간과 동일한 공간에 속하기 때문에 차원이 팽창하지 않습니다.

이제 거리 행렬 의 일반적인 이중 중심 (구름 점 사이)은 거리를 스칼라 곱으로 변환하면서 원점을 해당 기하학적 중간에 배치하는 작업입니다. 그렇게함으로써 거리의 "네트워크"는 원점에서 특정 길이와 페어 단위 각도의 벡터 "버스트"로 동등하게 대체됩니다.

여기에 이미지 설명을 입력하십시오

[내 예제 사진의 별자리는 평면형으로, "가변"은 였다고 말하며 , 2 차원으로 생성되었습니다. 경우 X는 모든 점은 물론, 하나 개의 라인에 놓여있는 단일 열 변수이다.]XX

이중 센터링 작업에 대한 공식적인 내용입니다. n points x p dimensions데이터 (단 변량의 경우 )를 갖도록 합니다 . 하자 D가 있을 간의 유클리드 거리 행렬 포인트. 하자 C가X 의 열을 중심으로. 그런 다음 S = 이중 중심  D 2C C ' 와 동일합니다 . 점 구름이 중심이 된 후 행 사이의 스칼라 곱입니다. 이중 센터링의 주요 속성은 1Xp=1Dn x nnCXS=double-centered D2CC,이 합이 부정의 합과 동일오프의 -diagonal 요소S를.12nD2=trace(S)=trace(CC)S

거리 상관 관계로 돌아갑니다. 거리 공분산을 계산할 때 무엇을하고 있습니까? 우리는 두 거리의 그물을 상응하는 벡터 묶음으로 변환했습니다. 그런 다음 두 묶음의 해당 값 사이의 공변량 (및 그에 따른 상관 관계)을 계산합니다. 한 구성의 각 스칼라 곱 값 (이전 거리 값)에 다른 구성 중 해당하는 값이 곱해집니다. 이는 "변수"에서 두 행렬을 벡터화 한 후 두 변수 사이의 일반적인 공분산을 계산하는 것으로 (포인트 3에서 언급 한 것처럼) 볼 수 있습니다.

따라서 우리는 두 세트의 유사성 (스칼라 곱, 변환 된 거리)을 공변량합니다. 모든 종류의 공분산은 모멘트의 곱입니다. 즉, 모멘트와 평균과의 편차를 계산해야합니다. 이중 중심화는 그 계산이었습니다. 이것은 귀하의 질문에 대한 답변입니다. 공분산은 모멘트를 기반으로해야하지만 거리는 모멘트가 아닙니다.

우리의 경우 모멘트가 이미 일종의 공분산 (스칼라 곱과 공분산 구조적 으로 경쟁자 임 ) 이기 때문에 제곱근 이후의 추가 제곱근은 논리적으로 보입니다 . 따라서 원래 데이터의 값 수준으로 돌아가고 (상관 값을 계산할 수 있으려면) 근본을 가져야합니다.

마지막으로 한 가지 중요한 참고 사항 이 있습니다. 만약 우리가 그것의 고전적인 방식, 즉 유클리드 거리를 제곱 한 후에 이중 중심을하고 있다면, 실제 거리 공분산이 아니고 유용하지 않은 거리 공분산으로 끝날 것입니다. 그것은 일반적인 공분산과 정확히 관련된 양으로 변성 된 것처럼 보일 것입니다 (그리고 거리 상관은 선형 피어슨 상관의 함수일 것입니다). 어떤 거리 공분산 / 상관 고유 연관되지만 선형되지 측정 할 수 종속성의 일반적인 형태 , 그래서 dCov = 0, 변수는 독립적 인 경우에만 경우 -이다 제곱 부족 이중 센터링을 수행 할 때의 거리가 (참조 : 포인트 2). 실제로, 거리의 거리의 힘은 할 것, 그러나, 표준 양식은 전원 그것을 할 것입니다 (1) . 왜이 힘이 아닌 힘 2 가 비선형 상호 의존성의 척도가되는 계수를 촉진 시키는가분포의특징적인 기능을갖는 수학적인 문제입니다. 간단한 단어와의 공분산 / 상관 관계 (한 번시도했지만실패했습니다).(0,2)12


3 단계의 "합계 교차 곱"이란 단순히 일반 스칼라 곱을 의미합니까?
kram1032

1
@ kram1032, 예 SCP와 스칼라 제품은 동의어 stats.stackexchange.com/a/22520/3277이
ttnphns

8

두 질문 모두 깊이 연관되어 있다고 생각합니다. 거리 행렬의 원래 대각선은 0이지만 공분산에 사용되는 것은 (상관의 분자를 결정) 거리의 이중 중심 값입니다. 변이가있는 벡터의 경우 대각선이 부정.

간단한 독립 사례를 살펴보고 두 변수가 독립적 일 때 상관 관계가 0 인 이유에 대한 직관을 제공하는지 살펴 보겠습니다.

(X,Y)=[(0,0),(0,1),(1,0),(1,1)]

Y 의 거리 행렬 은 다음 과 같습니다.XY

a=[0011001111001100]

b=[0101101001011010]

A

A=[.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5]

B=[.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5]

.5.5=.25.5.5=.25.5.5=.250

0

0ab0.25

(ttnphns가 지적했듯이, 힘도 중요하기 때문에 이것으로는 충분하지 않습니다. 우리는 동일한 이중 센터링을 수행 할 수 있지만 구적법으로 추가하면 if 속성 만 잃게됩니다.)


1
이 답변으로 행렬을 편집해도 괜찮습니까?
shadowtalker

@ssdecontrol 제안에 감사드립니다! 나는 그것을 직접하고 직접했지만 다른 형식을 자유롭게 변경하십시오.
Matthew Graves

1
나는 확실히 이해하지 않는 당신이 이 경우에 "한"을 의미하는 (다른는 매튜가 말한 또는?) 나에게 중요한 / 정말 신비 란 (I 내 대답의 끝에서 그것을 표현) 인 이유 ( 이론적으로) 거리 를 제곱 하지 않고 이중 센터링을 수행 할 때 dCov가 독특하고 유용한 특성을 갖도록합니다.
ttnphns

1
@ttnphns : 단일 중심화로 각 거리 값에서 큰 평균을 뺀 것을 의미했습니다. 어쨌든 거리 공분산이 신비하다는 데 동의합니다.
amoeba는 Reinstate Monica가

1
@amoeba 저자가 일종의 직관적 인 설명과 여러 쌍의 변수에 대한 효율적인 구현으로 후속 조치를 작성하기를 바랍니다. 원래의 종이와 거리 공분산이 여전히 대학원생들에게 여전히 빠른 전환이기 때문에 10 년 만에 끝납니다. 이 연습에 사용되는 내가 본 유일한 시간은 MC 체인을 진단하는 스탠에서 다음-구현되지 않은 기능에 있었다
shadowtalker
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.