연속 클러스터링

9

실시간 스트리밍 데이터를 사용한 클러스터링과 관련하여 직면 한 문제가 있습니다. 점점 증가하는 데이터 세트가 있으므로 효율적이고 효과적인 클러스터링을 실행하는 가장 좋은 방법이 무엇인지 잘 모르겠습니다. 나는 다음과 같은 몇 가지 가능한 해결책을 생각해 냈습니다.

허용 할 데이터 포인트 수에 대한 한계를 설정하여 다른 데이터 포인트가 가장 오래된 포인트에 도달 할 때 한계에 도달 할 때마다 제거됩니다. 본질적으로, 이것은 오래된 데이터가 더 이상 우리에게 잃어버린 것을 버릴 수 있도록 관련이 없다는 것을 시사합니다.
좋은 클러스터링을 만들기에 충분한 데이터가 확보되면 모든 데이터를 다시 클러스터링하지 않고이 "설정"을 고려하고 새로운 포인트가 가장 가까운 클러스터 중심을 파악한 다음 추가하십시오. 여기서 이점은 모든 새로운 지점에서 클러스터를 다시 클러스터 할 필요가 없으며이 클러스터링을 "충분히"고려하면 다른 모든 지점은 물론 클러스터 센터 만 저장할 필요가 없다는 것입니다. 단점은 처음부터 모든 데이터 포인트로 알고리즘을 다시 실행하는 것이 더 정확할 수 있다는 것입니다.

그것들은 내가 브레인 스토밍 한 몇 가지 잠재적 인 솔루션이지만이 문제에 직면하는 더 잘 알려진 기술이 있는지 알고 싶습니다. Google과 같은 사이트가 어떻게 든 처리해야한다고 생각합니다. "램, 서버 및 프로세서를 더 추가하거나"데이터 센터를 지속적으로 확장하는 것이 유일한 해결책은 아니길 바랍니다. "

— 수레 쉬 벤 카트
소스

6

클러스터링을 위한 온라인 알고리즘 을 찾고있는 것 같습니다 .

Google Scholar에서 "온라인 클러스터링"을 검색하는 것이 좋습니다. 아마도 다음 링크는 (적어도 출발점으로) 유용 할 것입니다.

Guha et al .: 클러스터링 데이터 스트림 : 이론 및 실습
Beringer and Hüllermeier : 데이터 스트림의 온라인 클러스터링

— 조엘 리 비키
소스

9

스트림 클러스터링에는 상당한 양의 작업이 있습니다 (온라인 방법과 약간 다르지만 본질적으로 원하는 것입니다). Guha et al의 위의 참조는 매우 좋은 것으로, 어떤 종류의 기술이 작동하고 과거에 어떤 방법이 사용되었는지 (휴리스틱하고 정확한 방법)에 대한 더 일반적인 관점에서, 내 설문 조사 를보고 싶을 수도 있습니다 스트림에 클러스터링에 .

— 수레 쉬 벤 카트
소스

7

또한 데이터 스트림 알고리즘에 대한 강의 14 및 15 강의 노트를 살펴볼 수도 있습니다 .

— 피오트르
소스

4

위의 Suresh의 설문 조사를 좋아하고 스트림 클러스터링의 다양한 접근 방식을 요약합니다. 이것을 요구하지는 않았지만 어떤 경우에는 분산 서버가 연속 데이터를 볼 수 있고 중앙에 클러스터링을 유지해야하며 많은 데이터를 이동할 필요가 없다는 것이 문제입니다. 여기를 참조 하십시오 .

— 나도
소스

환영합니다, Muthu!

— Suresh Venkat