k- 평균 군집화에 평균 정규화 및 기능 스케일링이 필요합니까?


답변:


62

변수가 비교할 수없는 단위 (예 : 높이 (cm), 무게 (kg)) 인 경우 물론 변수를 표준화해야합니다. 변수가 동일한 단위이지만 상당히 다른 분산을 보여도 K- 평균 전에 표준화하는 것이 좋습니다. K- 평균 군집화는 공간의 모든 방향에서 "등방성"이므로 다소 길거나 길지 않은 군집을 생성하는 경향이 있습니다. 이 상황에서 분산이 동일하지 않은 것은 분산이 작은 변수에 더 많은 가중치를 두는 것과 같으므로 클러스터는 분산이 큰 변수와 함께 분리되는 경향이 있습니다.

여기에 이미지 설명을 입력하십시오

K- 평균 군집화 결과는 데이터 세트 의 객체 순서에 잠재적으로 민감하다는 점도 기억해야합니다 . 정당한 관행은 객체 순서를 무작위 화하여 분석을 여러 번 실행하는 것입니다. 그런 다음 해당 런의 클러스터 중심을 평균화하고 분석의 최종 실행을위한 초기 중심으로 중심을 입력합니다.1

다음 은 군집 또는 다른 다변량 분석에서 기능을 표준화하는 문제에 대한 일반적인 추론입니다.


1 구체적으로, (1) 일부 센터 초기화 방법은 대소 문자를 구분합니다. (2) 초기화 방법이 민감하지 않은 경우에도 결과는 초기 센터가 프로그램에 도입되는 순서 (특히 데이터 내에 동일한 거리가있는 경우)에 따라 때때로 달라질 수 있습니다. (3) 이른바 런닝 수단 k-means 알고리즘의 버전 은 자연스럽게 사례 순서에 민감합니다 (이 버전에서는 온라인 클러스터링과는 별개로 자주 사용되지 않음)-개별 사례가 다른 클러스터).


2
무작위, 재실행, 평균화 및 최종 실행은 매우 유용한 조언입니다. 감사합니다
pedrosaurio

1
k- 평균은 주문에 어떻게 민감합니까?
SmallChess

1
@ 학생, 나는 그것에 대한 각주를 추가했습니다. 감사합니다.
ttnphns 2012

1
@ttnphns 변수에 "quite different variances"가 있는지 정량적으로 결정하는 방법은 무엇입니까?
Herman Toothrot

4

내가 추측 한 데이터에 따라 다릅니다. 규모에 관계없이 데이터의 추세를 함께 묶으려면 중앙에 위치해야합니다. 예. 어떤 유전자 발현 프로파일이 있고 유전자 발현의 경향을보고 싶다고 말하면 평균 중심화없이 낮은 발현 유전자가 모여서 추세에 관계없이 고 발현 유전자로부터 멀어지게됩니다. 센터링은 유사한 발현 패턴을 갖는 유전자 (고 발현 및 저 발현)를 함께 클러스터로 만든다.


실제로 자체 스케일을 가진 다른 기능을 비교하고 있습니다. 예를 들어, 나는 0.3에서 0.5 사이의 범위를 가진 GC 함량을 비교하고 있는데, 이는 작은 것처럼 보이지만 그 차이는 매우 중요합니다. 다른 기능의 범위는 더 넓고 다른 기능의 범위는 매우 작습니다.
pedrosaurio

그래서 당신은 다른 요인들을 모으고 있습니까? 가중치 또는 값 변환을 사용할 수 있습니다.
Nightwriter

아니요, 모든 연속 변수를 비교합니다
pedrosaurio
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.