I는이 공분산 행렬와으로 분할 할 변수 사용하여 클러스터 계층 클러스터링 (공분산 행렬을 정렬하도록).
변수 간 (즉, 제곱 공분산 행렬의 열 / 행 사이) 일반적인 거리 함수가 있습니까?
또는 더 많은 것이 있으면 주제에 대한 좋은 참고 자료가 있습니까?
I는이 공분산 행렬와으로 분할 할 변수 사용하여 클러스터 계층 클러스터링 (공분산 행렬을 정렬하도록).
변수 간 (즉, 제곱 공분산 행렬의 열 / 행 사이) 일반적인 거리 함수가 있습니까?
또는 더 많은 것이 있으면 주제에 대한 좋은 참고 자료가 있습니까?
답변:
공분산 (또는 상관 또는 코사인)은 코사인 법칙을 통해 유클리드 거리로 쉽게 자연스럽게 변환 할 수 있습니다 . 왜냐하면 유클리드 공간에서 스칼라 곱 (= 각도 기반 유사성) 이기 때문입니다 . 두 변수 사이의 공분산 알면 I 및 J를 잘 아는 것을 의미 자동 그 차이만큼 D를 변수 사이 : . ( 는 일반적인 제곱 유클리드 거리에 정비례합니다.: 분산과 공분산 대신에 제곱합과 교차 합을 사용하면 후자를 얻습니다. 두 변수는 물론 초기에 중심을 두어야합니다. "공분산 (covariances)"은 평균이 제거 된 데이터에 대한 생각과 별개입니다.)
이 공식은 음의 공분산이 양의 공분산보다 거리가 멀다는 것을 의미합니다 (이는 실제로 기하학적 관점에서 볼 때, 즉 변수가 주제 공간 에서 벡터로 표시되는 경우 ). 공분산의 표시가 역할을 수행하지 않게하려면 음수 부호를 폐지하십시오. 음수 부호를 무시하는 것은 "수동 패치"작업이 아니며 필요할 때 보증됩니다. cov 행렬이 양수이면 abs (cov) 행렬도 양수입니다. 따라서 상기 식에 의해 얻어진 거리는 실제 유클리드 거리 (유클리드 거리는 특정 종류의 메트릭 거리)가 될 것이다.
유클리드 거리는 계층 적 군집 과 관련하여 보편적 입니다. 이러한 군집화 방법은 유클리드 또는 제곱 유클리드 d에 유효합니다 . 그러나 평균 링키지 또는 전체 링키지와 같은 일부 방법은 (메트릭 거리뿐만 아니라) 비 유사성 또는 유사성과 함께 사용할 수 있습니다. 따라서 이러한 방법을 cov 또는 abs (cov) 행렬에 직접 사용 하거나 예를 들어 max (abs (cov))-abs (cov) 거리 행렬에 직접 사용할 수 있습니다. 물론 클러스터링 결과는 사용 된 (유사) 유사성의 정확한 특성에 따라 달라질 수 있습니다.
상관 관계 행렬을 사용하여 클러스터링을 수행하지 않는 이유는 무엇입니까? 랜덤 변수가 중심에 있다고 가정하면 변수 사이의 상관 관계를 계산하여 코사인 유사 거리를 계산합니다 . 이 거리는 귀하의 링크에도 언급되어 있습니다. 이 거리는 계층 적 군집에 사용할 수 있습니다. 1-| 코사인 유사성 |이 작을수록 변수가 더 유사합니다.