공분산 행렬을 만드는 변수 사이의 거리는 얼마입니까?


11

I는이 공분산 행렬와으로 분할 할 변수 사용하여 클러스터 계층 클러스터링 (공분산 행렬을 정렬하도록).n×nk

변수 간 ​​(즉, 제곱 공분산 행렬의 열 / 행 사이) 일반적인 거리 함수가 있습니까?

또는 더 많은 것이 있으면 주제에 대한 좋은 참고 자료가 있습니까?


변수에 계층 적 클러스터링을 사용하려는 이유는 무엇입니까? 일반적으로 데이터 행렬 , 변수 및 열의 관측 값을 생각합니다. 잠재 그룹을 찾으려면 / 관측 에 대한 계층 적 클러스터링 또는 / 변수 에 대한 요인 분석 을 시도 할 수 있습니다 . X
gung-모니 티 복원

@Piotr, 예, 공분산 (또는 상관 또는 코사인)은 스칼라 곱 (= 각형 유사성) 이므로 유클리드 거리로 쉽고 자연스럽게 변환 할 수 있습니다 . 두 변수 간의 공분산과 변수의 분산을 알면 변수 사이의 d 를 자동으로 알 수 있습니다. d2=σ12+σ222coV
ttnphns

이 공식은 음의 공분산이 양의 공분산보다 거리가 멀다는 것을 의미합니다 (실제로 기하학적 관점에서 볼 때). 공분산의 표시가 역할을 수행하지 않게하려면 음수 부호를 폐지하십시오.
ttnphns 2016 년

@gung 대칭 행렬이므로 행 ~ 열입니다. 나를 위해 변수 분석으로 변수를 '회전'하는 것이 아니라 변수 세트로 나누는 것이 중요합니다 (실제로 표준 cov. 행렬로 작업하지 않고 복잡한 것 (양자 역학의 밀도 행렬)).
Piotr Migdal

@ttnphns 감사합니다. 나를 괴롭히는 것은 상관되지 않은 변수를 분리하고 싶다는 것입니다-음의 상관 관계는 (거의) 긍정적 인 것만 큼 좋습니다.
Piotr Migdal

답변:


13

공분산 (또는 상관 또는 코사인)은 코사인 법칙을 통해 유클리드 거리로 쉽게 자연스럽게 변환 할 수 있습니다 . 왜냐하면 유클리드 공간에서 스칼라 곱 (= 각도 기반 유사성) 이기 때문입니다 . 두 변수 사이의 공분산 알면 IJ를 잘 아는 것을 의미 자동 그 차이만큼 D를 변수 사이 : . ( 는 일반적인 제곱 유클리드 거리에 정비례합니다.나는제이2=σ나는2+σ제이22영형V나는제이나는제이2: 분산과 공분산 대신에 제곱합과 교차 합을 사용하면 후자를 얻습니다. 두 변수는 물론 초기에 중심을 두어야합니다. "공분산 (covariances)"은 평균이 제거 된 데이터에 대한 생각과 별개입니다.)

이 공식은 음의 공분산이 양의 공분산보다 거리가 멀다는 것을 의미합니다 (이는 실제로 기하학적 관점에서 볼 때, 즉 변수가 주제 공간 에서 벡터로 표시되는 경우 ). 공분산의 표시가 역할을 수행하지 않게하려면 음수 부호를 폐지하십시오. 음수 부호를 무시하는 것은 "수동 패치"작업이 아니며 필요할 때 보증됩니다. cov 행렬이 양수이면 abs (cov) 행렬도 양수입니다. 따라서 상기 식에 의해 얻어진 거리는 실제 유클리드 거리 (유클리드 거리는 특정 종류의 메트릭 거리)가 될 것이다.

유클리드 거리는 계층 적 군집 과 관련하여 보편적 입니다. 이러한 군집화 방법은 유클리드 또는 제곱 유클리드 d에 유효합니다 . 그러나 평균 링키지 또는 전체 링키지와 같은 일부 방법은 (메트릭 거리뿐만 아니라) 비 유사성 또는 유사성과 함께 사용할 수 있습니다. 따라서 이러한 방법을 cov 또는 abs (cov) 행렬에 직접 사용 하거나 예를 들어 max (abs (cov))-abs (cov) 거리 행렬에 직접 사용할 수 있습니다. 물론 클러스터링 결과는 사용 된 (유사) 유사성의 정확한 특성에 따라 달라질 수 있습니다.


나는제이2나는제이2

@HelloGoodbye, 그렇습니다. 두 번째 변수 (벡터)는 동일한 수단을 사용합니다. 실제로 첫 번째 인스턴스에서 제거 된 수단입니다.
ttnphns

3

상관 관계 행렬을 사용하여 클러스터링을 수행하지 않는 이유는 무엇입니까? 랜덤 변수가 중심에 있다고 가정하면 변수 사이의 상관 관계를 계산하여 코사인 유사 거리를 계산합니다 . 이 거리는 귀하의 링크에도 언급되어 있습니다. 이 거리는 계층 적 군집에 사용할 수 있습니다. 1-| 코사인 유사성 |이 작을수록 변수가 더 유사합니다.


(나는,제이)=1나는제이2/(나는나는제이제이)

3
아, 오해해서 죄송합니다. 내가 아는 가장 좋은 소스는 이것 입니다. 계층 적 군집화와 상관 관계 분석을 사용하는 여러 메트릭의 품질을 연구합니다. 계층 적 클러스터링의 경우 일반적으로 많은 메트릭을 시도하고 특정 목표 및 데이터에 가장 적합한 것을 확인합니다.
Jorge Banuelos 2016 년

링크가 더 이상 작동하지 않는 것 같습니다?
Matifou
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.