거리 메트릭으로 상관 관계 사용 (계층 적 클러스터링의 경우)


22

데이터를 계층 적으로 클러스터하고 싶지만 유클리드 거리를 사용하는 대신 상관 관계를 사용하고 싶습니다. 또한 상관 계수의 범위는 -1에서 1까지이며, 연구에서 -1과 1이 모두 "공-조절"을 나타내므로 -1과 1을 d = 0으로 취급합니다. 따라서 계산은 d=1|r|

나는 코사인 정리를 사용하여 r 을 진정한 유클리드 d 로 변환해야한다는 별도의 질문 (k- 평균 군집화에 관한)을 읽었습니다d=2(1r)

계층 적 군집화를 위해 상관 관계를 거리로 변환하는 가장 정확한 방법은 무엇입니까?


3
그렇습니다. 가능한 기하학적 인 방법 중 하나 는 마지막 공식입니다. 하지만 당신의 부호 무시할 수 당신을 위해 의미가 있다면 그래서, D 2 = 2 ( 1 - | R | ) . 대부분의 경우 군집 결과에 영향을주지 않으면 서 2를 안전하게 제거 할 수 있습니다 . 거리는 제곱 유클리드 로 처리 될 수 있습니다 . 에서 스레드 그것은 거리 변환 상관 관계를 측정 메트릭 거리 여부를 논의했다. rd2=2(1|r|)2
ttnphns

2
또한, 당신은하지 않습니다 항상 변환하는 같은 유클리드 거리로 선형 적 차이로. 사람들이 r 또는 | r | 유사성에 관해서; 그것은 각 유사성rr|r|
ttnphns

답변:


21

계층 적 클러스터링 요구 사항

계층 적 군집화는 임의의 유사성 및 비 유사성 측정과 함께 사용할 수 있습니다. (대부분의 도구는 비 유사성을 기대하지만 음수 값을 허용합니다. 작거나 큰 값을 선호하는지 여부는 사용자에게 달려 있습니다.).

중심 또는 분산 (예 : Ward의 방법)을 기반으로하는 방법 만 특별하며 제곱 유클리드와 함께 사용해야합니다. (이유를 이해하려면이 연결을주의해서 연구하십시오.)

단일 연계, 평균 연계, 완전 연계는 그다지 영향을받지 않으며, 여전히 쌍별 차이의 최소 / 평균 / 최대입니다.

거리 측정과의 상관

각 피처에 μ = 0σ = 1 ( 일정한 피처 를 허용하지 않음 )을 갖도록 데이터를 전처리 ( n 관측치, p 피처) 하면 상관 관계가 코사인으로 줄어 듭니다.μ=0σ=1

Corr(X,Y)=Cov(X,Y)σXσY=E[(XμX)(YμY)]σXσY=E[XY]=1nX,Y

같은 조건에서 제곱 유클리드 거리도 코사인으로 줄어 듭니다.

dEuclid2(X,Y)=(XiYi)2=Xi2+Yi22XiYi=2n2X,Y=2n[1Corr(X,Y)]

따라서 데이터가 퇴화되지 않는 한 계층 적 클러스터링에 상관 관계를 사용하는 것이 좋습니다. 위에서 설명한대로 전처리 한 다음 제곱 유클리드 거리를 사용하십시오.


1
Only ward's method is special, and should be used with squared Euclidean. 와드뿐만 아니라 중심점 또는 중심점으로부터의 편차를 계산하는 모든 방법은 기하학적 정밀도를 위해 유클리드 또는 제곱 유클리드 거리 (구현에 따라 다름)가 필요합니다. 이러한 손실 및 적절한 경고로 인해 다른 미터 거리와 함께 사용할 수 있습니다. 이러한 방법은 중심, "중앙", 와드, 분산 (와드와 혼동하지 말 것!) 및 기타입니다.
ttnphns

고마워, 나는 그것을 더 명확하게했다. 나는 이러한 변화를 알지 못했고 단일 / 평균 / 완전 / 병동만을 생각하고있었습니다.
Anony-Mousse

1
,dim
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.