거리 상관의 직관적 특성이 있습니까?


14

나는 거리 계산에 의해 특징 지워지는 거리 상관 관계 에 대해 wikipedia 페이지를 쳐다보고 있다. 계산을 할 수는 있지만 거리 상관 측정 무엇인지, 계산이 왜 그렇게 보이는지 이해하기 어려워합니다.

측정 거리를 이해하는 데 도움이되는 거리 상관 관계에 대한 직관적 인 특징이 있습니까?

나는 직관 을 요구하는 것이 다소 모호하다는 것을 알고 있지만, 내가 어떤 종류의 직감을 요구하는지 알면 아마도 처음에는 묻지 않았을 것입니다. 또한 두 개의 랜덤 변수 사이의 거리 상관 관계에 대한 직감에 만족할 것입니다 (두 개의 랜덤 벡터 사이에 거리 상관 관계가 정의되어 있음에도 불구하고).

답변:


8

대답은 질문에 올바르게 대답하지 않습니다 . 의견을 읽으십시오.

일반적인 공분산거리 공분산을 비교해 봅시다 . 둘 다의 효과적인 부분은 분자입니다. (분모는 단순히 평균입니다.) 공분산의 분자는 점과 의 편차에 대한 합산 된 곱 (= 스칼라 곱)입니다 . 평균은 다음과 같습니다. ( 그 중심 으로 위첨자 로). 이 스타일로 식을 다시 쓰려면 : , 는 중심 에서 점 의 편차 , 즉 (서명 된) 거리 중심에 대한 를 나타냅니다. 공분산은 모든 점에서 두 거리의 곱의 합으로 정의됩니다.μ Σ d x i μ d y i μ d iΣ(xiμx)(yiμy)μΣdiμxdiμydi

거리 공분산 은 어떻게 됩니까? 분자는 알고 있듯이 입니다. 우리가 위에서 쓴 것과 많이 같지 않습니까? 그리고 차이점은 무엇입니까? 여기서, 거리 ( 는 상기와 같이 데이터 포인트와 평균 사이가 아닌 다양한 데이터 포인트 사이에있다. 거리 공분산은 모든 점 쌍에 대한 두 거리의 곱의 합으로 정의됩니다. dΣdijxdijyd

데이터가 하나의 직선을 따라 배열 될 때 한 고정 점으로부터의 공 거리를 기반으로 한 스칼라 곱 (두 엔티티 사이-변수 와 )이 최대화됩니다 . var * i * able 지점으로부터의 동일 거리를 기반으로 한 스칼라 곱은 데이터가 직선을 따라 로컬로, 부분적으로 정렬 될 때 최대화됩니다. 다시 말해서, 데이터가 전체적으로 임의의 형태의 체인을 나타낼 때, 임의의 형태 의 의존성.yxy

실제로 관계가 완벽한 선형에 가까워지고 분산이 더 클수록 일반적인 공분산이 더 큽니다. 분산을 고정 된 단위로 표준화하는 경우 공분산은 선형 연관 강도에만 의존하며이를 피어슨 상관 법 이라고 합니다. 그리고 우리가 알고 있듯이 관계가 완벽한 곡선에 가깝고 데이터 확산이 더 클 때 거리 공분산이 더 큰 이유를 알 수 있습니다. 스프레드를 고정 단위로 표준화하면 공분산은 일부 곡선 연관의 강도에만 의존하며이를 브라운 (거리) 상관 관계 라고 합니다.


두 번째 단락에서는 클릭했습니다. 위키 백과 페이지에서 왜 그것을 보지 못했는지 모르겠습니다 ... 감사합니다!
Rasmus Bååth

궁금한 점은 en.wikipedia.org/wiki/Brownian_covariance#Distance_covariance 가 귀하의 예에서 나온 분자입니다 (또는 분자에서 위키 백과 버전으로 얻는 방법)? Wikipedia는 거리 공분산의 제곱을 계산하는 방법을 설명하고 설명과 설명이 일치하는 데 약간의 문제가 있습니다 ...
Rasmus Bååth

d

그렇습니다, 이중 센터링은 저를 수수께끼로 만들었습니다. 당신이 그것을 명확히 할 시간이 있다면 크게 재평가 될 것입니다! :)
Rasmus Bååth

1
α=1
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.