차원 축소를 클러스터링과 언제 결합합니까?


16

문서 수준 클러스터링을 수행하려고합니다. 용어 문서 주파수 행렬을 구성했으며 k- 평균을 사용하여 이러한 고차원 벡터를 군집화하려고합니다. 직접 클러스터링 대신, 먼저 LSA (Latent Semantic Analysis) 특이 벡터 분해를 적용하여 U, S, Vt 행렬을 구하고, scree plot을 사용하여 적절한 임계 값을 선택하고 축소 된 행렬에 클러스터링을 적용했습니다 (특히 Vt 그것은 나에게 좋은 결과를주는 것처럼 보였던 개념 문서 정보를 제공합니다.

일부 사람들은 SVD (단일 벡터 분해) (코사인 유사성 측정 등을 사용하여 ) 군집화 한다고 말하고 SVD 의 출력에 k- 평균을 적용 할 수 있는지 확실하지 않았습니다. SVD는 차원 축소 기술이기 때문에 논리적으로 정확하다고 생각했습니다. 새 벡터를 많이 제공합니다. 반면 k- 평균은 군집 수를 입력으로 사용하여 이러한 벡터를 지정된 군집으로 나눕니다. 이 절차에 결함이 있거나 개선 할 수있는 방법이 있습니까? 어떤 제안?


좋은 질문. 개인적으로 나는 이런 것들에 대해 생각하고 있습니다. 그러나 좋은 대답이 없습니다.
suncoolsu

1
차원 축소 및 클러스터링을 동시에 수행하는 방법이 있습니다. 이들 방법은 클러스터의 식별을 용이하게하기 위해 최적으로 선택된 저 차원 표현을 추구한다. 예를 들어, R의 clustrd package 및 관련 참조를 참조하십시오.
Nat

답변:


6

이것은 완전한 대답이 아닙니다. "차원 축소를 수행 할 때 어떤 종류의 거리가 유지됩니까?"라는 질문이 있습니다. K- 평균과 같은 군집 알고리즘은 거리에서만 작동하기 때문에 (이론적으로) 사용할 올바른 거리 측정법은 차원 축소에 의해 유지되는 거리 측정법입니다. 이러한 방식으로, 차원 축소 단계는보다 낮은 차원의 공간에서 데이터를 클러스터링하기위한 계산 바로 가기로 볼 수 있습니다. (또한 지역 최소 등을 피하기 위해)

여기에는 내가 이해하지 못하는 많은 미묘한 부분이 있지만 (로컬 거리 대 전역 거리, 상대 거리가 왜곡되는 방법 등), 이것이 이론적으로 이러한 것들에 대해 생각하는 올바른 방향이라고 생각합니다.


+1 매우 흥미로운 질문입니다. 이 경우 유클리드가 그러한 지표 중 하나로 간주 될 수 있습니까? 치수가 줄어듦에 따라 점이보다 낮은 치수 공간으로 투영되지만 거리 개념이 손실 될 수 있습니다. 이와 같이 축소를 사용할 때 거리를 유지하는 방법을 보는 데 어려움을 겪고 있습니다.
Legend

1
나는이 대답이 기본적으로 옳다고 생각합니다. 더 작은 공간에 거리를 유지하는 (일부 거리 개념) 포함하는 것을 찾고 싶습니다. 체크 아웃하는 두 가지 좋은 알고리즘은 IsomapLocally-Linear Embedding 입니다. 당신의 목표가 클러스터링이라면 "이웃 보존"은 좋은 접근법처럼 보입니다.
Stumpy Joe Pete

5

"우리는 언제 차원 축소와 클러스터링을 결합합니까?" 전체 질문보다는. 한 가지 이유는 명백합니다. 우리는 agaist 이상 치를 확보하려고 할 때입니다. 초기 중심 힌트가 없으면 K- 평균 알고리즘은 구름에서 k를 가장 중심점으로 가장 먼저 가져 오며, 이는 이상 치일 가능성이 높습니다. PCA에 의한 Preacting은 주니어 구성 요소와 함께있는 특이 치들을 PCA에 유지되는 소수의 수석 구성 요소에 투영하여 중립화합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.