비 차원 데이터에 대한 클러스터링 알고리즘


12

수천 점의 데이터 세트와 두 점 사이의 거리를 측정하는 수단이 있지만 데이터 점에는 차원이 없습니다. 이 데이터 세트에서 클러스터 센터를 찾는 알고리즘을 원합니다. 데이터에 차원이 없기 때문에 클러스터 센터는 여러 데이터 포인트와 공차로 구성 될 수 있으며 클러스터 내 멤버쉽은 데이터 포인트와 클러스터 센터의 모든 데이터 포인트까지의 거리 평균에 의해 결정될 수 있습니다.

이 질문에 잘 알려진 해결책이 있다면 용서해주십시오. 이런 종류의 문제에 대해서는 거의 알지 못합니다! 내 (매우 제한된) 연구는 차원 데이터에 대한 클러스터링 알고리즘을 설정했지만 분명한 것을 놓친 경우 미리 사과드립니다.

감사합니다!


비차 원성이이 문제를 특별하게 만드는 이유는 무엇입니까?
Raphael

1
클러스터링에서 실제로 보았던 일부 알고리즘 (실제로 k- 평균)은 시드로 임의의 데이터 포인트를 생성해야하는데 이는 차원없는 데이터로는 불가능합니다. 따라서 특별한 요구 사항은 클러스터 센터가 기존 데이터 포인트 세트 (가중치)로 표시되어야한다는 것입니다.
paintcan

답변:


15

kkkk

k

이 두 가지 문제는 일반적으로 NP가 어렵고 임의의 요소 내에서 근사하기가 어렵습니다. 메트릭 조건을 삭제하면 근사 성 측면에서 상황이 훨씬 나빠집니다.

k

궁극적으로 대부분의 클러스터링 문제와 마찬가지로 최종 선택은 응용 프로그램, 데이터 크기 등에 따라 다릅니다.


3
빠르고 명확한 개요에 감사드립니다. 내 질문에 답변했는지 확인하려면 며칠이 걸릴 것입니다. 내 문제를 충분히 이해하기 전에 배울 점이 많이있는 것 같습니다. :)
paintcan

5

상관 클러스터링 도 있는데 , 이는 각 항목 쌍에 대한 입력 정보가 ​​동일한 클러스터 또는 다른 클러스터에 속하는지 여부를 표시합니다.


예, 다른 좋은 예입니다. 물론 워렌은 이것에 대한 전문가입니다! OP의 입력이 +/-이지만, 임계 값을 통해 변환 될 수 있는지 모르겠습니다. 그렇다면이 옵션은 실제로 실행 가능한 옵션입니다.
Suresh Venkat

5

좋은 경험적 성능을 찾고 있다면 친 화성 전파 알고리즘은 일반적으로 k-median보다 더 잘 작동합니다. 여러 언어로 제공되는 코드가 있으며 알고리즘을 자세히 설명하는 출판물은 다음과 같습니다. http://www.psi.toronto.edu/index.php?q=affinity%20propagation

is(i,ci)

scicis(i,i)


5

귀하의 질문은 당신이 적절한 계산 시간을 가진 알고리즘을 찾고 있음을 암시하는 것 같습니다. 정점 (또는 점)의 크기가 주어지면 데이터의 가중치 그래프 표현을 작성하고 Markov Cluster Algorithm (MCL)을 사용하여 그래프를 클러스터링하는 것입니다.

http://www.micans.org/mcl/

MCL은 가중 및 비가 중 그래프를 랜덤하게 걸어서 조밀 한 하위 그래프를 찾습니다. 큰 그래프를 처리 할 수 ​​있으며 잘 알려진 널리 사용되는 생물 정보학 프로그램 (예 : BLAST)에서 많이 사용되었습니다. 바우처


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.