거리 측정 값이 유클리드 거리 인 계층 적 군집에서는 데이터를 가장 먼저 정규화하거나 표준화하여 변동이 가장 큰 공변량이 군집을 유발하지 않도록해야합니다. 왜 이런거야? 이 사실이 바람직하지 않습니까?
거리 측정 값이 유클리드 거리 인 계층 적 군집에서는 데이터를 가장 먼저 정규화하거나 표준화하여 변동이 가장 큰 공변량이 군집을 유발하지 않도록해야합니다. 왜 이런거야? 이 사실이 바람직하지 않습니까?
답변:
데이터에 따라 다릅니다. 실제로는 계층 적 군집과는 관련이 없지만 거리 기능 자체와는 관련이 없습니다.
문제는 속성 이 혼합 된 경우 입니다.
사람에 대한 데이터가 있다고 가정하십시오. 그램 및 신발 크기의 무게. 신발 크기는 거의 다르지 않지만 체질량 차이 (그램)는 훨씬 더 큽니다. 수십 가지 예를 생각해 볼 수 있습니다. 1g과 1 신발 크기 차이를 비교할 수는 없습니다. 실제로이 예에서는 물리적 단위가 √ 인 것을 계산합니다. !
일반적으로 이러한 경우 유클리드 거리는 의미가 없습니다. 그러나 데이터를 정규화하면 여러 상황에서 여전히 작동 할 수 있습니다. 실제로 이해가되지 않더라도 인간 규모의 물리적 세계에서 유클리드 거리와 같이 "정확한"거리 기능이없는 상황에서는 좋은 휴리스틱 입니다.
데이터를 표준화하지 않으면 큰 단위로 측정 된 변수가 계산 된 비 유사성을 지배하며 작은 단위로 측정 된 변수는 거의 기여하지 않습니다.
우리는 이것을 R을 통해 시각화 할 수 있습니다 :
set.seed(42)
dat <- data.frame(var1 = rnorm(100, mean = 100000),
var2 = runif(100),
var3 = runif(100))
dist1 <- dist(dat)
dist2 <- dist(dat[,1, drop = FALSE])
dist1
는 세 가지 변수를 모두 기준으로 100 개의 관측치에 dist2
대한 유클리드 거리 를 포함하고, var1
단독을 기준으로 유클리드 거리 를 포함합니다 .
> summary(dist1)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.07351 0.77840 1.15200 1.36200 1.77000 5.30200
> summary(dist2)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.000072 0.470000 0.963600 1.169000 1.663000 5.280000
거리의 분포에서 작은 기여를 나타내는 방법과 유사 참고 var2
하고 var3
, 실제 거리가 매우 유사합니다 :
> head(dist1)
[1] 1.9707186 1.0936524 0.8745579 1.2724471 1.6054603 0.1870085
> head(dist2)
[1] 1.9356566 1.0078300 0.7380958 0.9666901 1.4770830 0.1405636
데이터를 표준화하면
dist3 <- dist(scale(dat))
dist4 <- dist(scale(dat[,1, drop = FALSE]))
그러면 거리에만 기반한 거리 var1
와 세 변수 모두 에 기반한 거리에는 큰 변화가 있습니다 .
> summary(dist3)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.09761 1.62400 2.25000 2.28200 2.93600 5.33100
> summary(dist4)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.000069 0.451400 0.925400 1.123000 1.597000 5.070000
> head(dist3)
[1] 2.2636288 1.7272588 1.7791074 3.0129750 2.5821981 0.4434073
> head(dist4)
[1] 1.8587830 0.9678046 0.7087827 0.9282985 1.4184214 0.1349811
계층 적 군집화가 이러한 거리를 사용함에 따라 표준화가 바람직한 지 여부는 보유한 데이터 / 변수의 유형과 큰 것들이 거리를 지배하고 따라서 군집 형성을 지배하는지 여부에 따라 달라집니다. 이에 대한 대답은 도메인 및 데이터 세트에 따라 다릅니다.
Anony-Mousse는 훌륭한 답변을하였습니다 . 이해하기 쉬운 거리 측정법은 다변량 분포의 모양에 따라 달라집니다. 다변량 가우스의 경우 Mahalanobis 거리가 적절한 측정 값입니다.