대부분의 고전적 군집 및 차원 축소 알고리즘 (계층 적 군집, 주요 구성 요소 분석, k- 평균, 자체 구성 맵 ...)은 숫자 데이터를 위해 특별히 설계되었으며 입력 데이터는 유클리드 공간에서 점으로 표시됩니다.
많은 실제 문제에 혼합 된 데이터가 포함되어 있기 때문에 물론 문제입니다. 예를 들어 버스를 연구하는 경우 높이와 길이 및 모터 크기는 숫자이지만 색상에 관심이있을 수도 있습니다 (범주 형 변수 : 파란색). / 빨간색 / 녹색 ...) 및 용량 클래스 (순서대로 가변 : 작은 / 중간 / 대용량). 특히, 우리는 이러한 다른 유형의 변수를 동시에 연구하고자 할 수 있습니다.
예를 들어 Gower 비 유사성을 사용하여 계층 적 클러스터링 또는 다차원 스케일링에 연결하거나 거리 매트릭스를 입력으로 사용하는 다른 방법과 같이 클래식 클러스터링 알고리즘을 혼합 데이터로 확장하는 방법에는 여러 가지가 있습니다. 또는 예를 들어 이 방법, 혼합 된 데이터에 대한 SOM의 확장.
내 질문은 : 왜 혼합 변수에 유클리드 거리를 사용할 수 없습니까? 아니면 왜 그렇게 나쁜가요? 왜 범주 형 변수를 더미 인코딩 하고 모든 변수를 관측 값 사이의 거리에서 비슷한 가중치를 갖도록 정규화하고 이러한 행렬에서 일반적인 알고리즘을 실행할 수없는 이유는 무엇 입니까?
정말 쉽고 결코 끝나지 않았으므로 매우 잘못되었다고 생각하지만 누구나 이유를 말해 줄 수 있습니까? 그리고 / 또는 저에게 심판을주세요? 감사