답변:
변수가 비교할 수없는 단위 (예 : 높이 (cm), 무게 (kg)) 인 경우 물론 변수를 표준화해야합니다. 변수가 동일한 단위이지만 상당히 다른 분산을 보여도 K- 평균 전에 표준화하는 것이 좋습니다. K- 평균 군집화는 공간의 모든 방향에서 "등방성"이므로 다소 길거나 길지 않은 군집을 생성하는 경향이 있습니다. 이 상황에서 분산이 동일하지 않은 것은 분산이 작은 변수에 더 많은 가중치를 두는 것과 같으므로 클러스터는 분산이 큰 변수와 함께 분리되는 경향이 있습니다.
K- 평균 군집화 결과는 데이터 세트 의 객체 순서에 잠재적으로 민감하다는 점도 기억해야합니다 . 정당한 관행은 객체 순서를 무작위 화하여 분석을 여러 번 실행하는 것입니다. 그런 다음 해당 런의 클러스터 중심을 평균화하고 분석의 최종 실행을위한 초기 중심으로 중심을 입력합니다.
다음 은 군집 또는 다른 다변량 분석에서 기능을 표준화하는 문제에 대한 일반적인 추론입니다.
구체적으로, (1) 일부 센터 초기화 방법은 대소 문자를 구분합니다. (2) 초기화 방법이 민감하지 않은 경우에도 결과는 초기 센터가 프로그램에 도입되는 순서 (특히 데이터 내에 동일한 거리가있는 경우)에 따라 때때로 달라질 수 있습니다. (3) 이른바 런닝 수단 k-means 알고리즘의 버전 은 자연스럽게 사례 순서에 민감합니다 (이 버전에서는 온라인 클러스터링과는 별개로 자주 사용되지 않음)-개별 사례가 다른 클러스터).
내가 추측 한 데이터에 따라 다릅니다. 규모에 관계없이 데이터의 추세를 함께 묶으려면 중앙에 위치해야합니다. 예. 어떤 유전자 발현 프로파일이 있고 유전자 발현의 경향을보고 싶다고 말하면 평균 중심화없이 낮은 발현 유전자가 모여서 추세에 관계없이 고 발현 유전자로부터 멀어지게됩니다. 센터링은 유사한 발현 패턴을 갖는 유전자 (고 발현 및 저 발현)를 함께 클러스터로 만든다.