실시간 스트리밍 데이터를 사용한 클러스터링과 관련하여 직면 한 문제가 있습니다. 점점 증가하는 데이터 세트가 있으므로 효율적이고 효과적인 클러스터링을 실행하는 가장 좋은 방법이 무엇인지 잘 모르겠습니다. 나는 다음과 같은 몇 가지 가능한 해결책을 생각해 냈습니다.
허용 할 데이터 포인트 수에 대한 한계를 설정하여 다른 데이터 포인트가 가장 오래된 포인트에 도달 할 때 한계에 도달 할 때마다 제거됩니다. 본질적으로, 이것은 오래된 데이터가 더 이상 우리에게 잃어버린 것을 버릴 수 있도록 관련이 없다는 것을 시사합니다.
좋은 클러스터링을 만들기에 충분한 데이터가 확보되면 모든 데이터를 다시 클러스터링하지 않고이 "설정"을 고려하고 새로운 포인트가 가장 가까운 클러스터 중심을 파악한 다음 추가하십시오. 여기서 이점은 모든 새로운 지점에서 클러스터를 다시 클러스터 할 필요가 없으며이 클러스터링을 "충분히"고려하면 다른 모든 지점은 물론 클러스터 센터 만 저장할 필요가 없다는 것입니다. 단점은 처음부터 모든 데이터 포인트로 알고리즘을 다시 실행하는 것이 더 정확할 수 있다는 것입니다.
그것들은 내가 브레인 스토밍 한 몇 가지 잠재적 인 솔루션이지만이 문제에 직면하는 더 잘 알려진 기술이 있는지 알고 싶습니다. Google과 같은 사이트가 어떻게 든 처리해야한다고 생각합니다. "램, 서버 및 프로세서를 더 추가하거나"데이터 센터를 지속적으로 확장하는 것이 유일한 해결책은 아니길 바랍니다. "