군집 분석을 설명하려고 할 때 사람들이 변수가 상관되어 있는지 여부와 관련된 것으로 프로세스를 오해하는 것이 일반적입니다. 사람들이 혼란을 극복 할 수있는 한 가지 방법은 다음과 같은 도표입니다.
이것은 군집이 있는지의 여부와 변수가 관련되어 있는지의 여부의 차이를 명확하게 표시합니다. 그러나 이는 연속 데이터의 차이점 만 보여줍니다. 범주 형 데이터가있는 아날로그를 생각하는 데 문제가 있습니다.
ID property.A property.B
1 yes yes
2 yes yes
3 yes yes
4 yes yes
5 no no
6 no no
7 no no
8 no no
우리는 두 개의 명확한 클러스터가 있음을 알 수 있습니다. A와 B 속성을 가진 사람과 그렇지 않은 사람들. 그러나 변수를 보면 (예 : 카이 제곱 테스트) 변수가 명확하게 관련되어 있습니다.
tab
# B
# A yes no
# yes 4 0
# no 0 4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389
위의 연속 데이터가있는 범주 데이터와 유사한 범주 데이터로 예제를 구성하는 방법에 대한 손실이 있습니다. 변수를 관련시키지 않고 순수한 범주 형 데이터로 클러스터를 가질 수도 있습니까? 변수가 두 개 이상의 수준을 가지고 있거나 더 많은 수의 변수를 가지고 있다면 어떻게 될까요? 관측치의 군집화에 변수 간의 관계가 반드시 수반되고 그 반대의 경우에도 범주 형 데이터 만있을 때 (즉, 변수를 대신 분석해야하는 경우) 군집화를 수행 할 가치가 없다는 것을 의미합니까?
업데이트 : 클러스터 분석에 익숙하지 않은 사람에게도 즉시 직관적 인 간단한 예제를 만들 수 있다는 아이디어에만 집중하고 싶었 기 때문에 원래의 질문에서 많은 것을 제외했습니다. 그러나 거리와 알고리즘의 선택에 따라 많은 클러스터링이 필요하다는 것을 알고 있습니다. 더 많은 것을 지정하면 도움이 될 수 있습니다.
피어슨의 상관 관계는 실제로 연속 데이터에만 적합하다는 것을 알고 있습니다. 범주 형 데이터의 경우 범주 형 변수의 독립성을 평가하는 방법으로 카이 제곱 검정 (양방향 우연성 테이블의 경우) 또는 로그 선형 모델 (다중 우연성 테이블의 경우)을 생각할 수 있습니다.
알고리즘의 경우 연속 상황과 범주 형 데이터에 모두 적용 할 수있는 k-medoids / PAM을 사용하는 것을 상상할 수 있습니다. (연속적인 예제 뒤에 의도의 일부는 합리적인 클러스터링 알고리즘이 그러한 클러스터를 감지 할 수 있어야하고 그렇지 않은 경우 더 극단적 인 예제를 구성 할 수 있어야한다는 것입니다.)
거리의 개념에 관해. 나는 순진한 시청자에게는 가장 기본적인 것이기 때문에 유클리드를 연속 예제로 가정했습니다. 범주 형 데이터와 유사한 거리 (가장 즉각적으로 직관적 임)가 간단한 일치라고 가정합니다. 그러나 해결책이나 흥미로운 토론으로 이어지면 다른 거리에 대한 토론에 개방적입니다.
[data-association]
태그를 추가 한 것 같습니다 . 그것이 무엇을 나타내는 지 잘 모르겠으며 발췌 / 사용 지침이 없습니다. 이 태그가 정말로 필요합니까? 삭제에 적합한 후보 인 것 같습니다. 우리가 실제로 이력서에 필요하고 그것이 무엇인지 알면 적어도 발췌문을 추가 할 수 있습니까?