가상 온라인 클러스터링 응용 프로그램의 예를 보여 드리겠습니다.
시간 n에서 포인트 1,2,3,4는 청색 클러스터 A에 할당되고 포인트 b, 5,6,7은 적색 클러스터 B에 할당됩니다.
시간 n + 1에서, 파란색 점 A에 할당 된 새로운 점 a가 도입되지만, 점 b도 파란색 군집 A에 지정됩니다.
끝점 1,2,3,4, a, b는 A에 속하고 5,6,7은 B에 속합니다.
언뜻보기에 단순한 것처럼 보이는 것은 실제로 시간이 지남에 따라 식별자를 유지하는 것이 약간 까다 롭습니다. 좀 더 경계선이있는 예를 통해이 점을 분명히 해보도록하겠습니다.
녹색 점은 두 개의 파란색과 두 개의 빨간색 점이 하나의 클러스터로 병합되어 임의로 파란색을 결정하기로 결정했습니다.
이 결정을 내리기 위해서는 컴퓨터가 규칙을 사용해야합니다. 예를 들어 포인트가 클러스터에 병합되면 클러스터의 ID가 대다수에 의해 결정됩니다. 이 경우 우리는 추첨에 직면하게 될 것입니다. 파란색과 빨간색 모두 새로운 (여기서는 파란색) 클러스터에 유효한 선택 일 수 있습니다.
녹색에 가까운 다섯 번째 빨간색 점을 상상해보십시오. 그런 다음 대다수는 빨강 (3 빨강 대 2 파랑)이되므로 빨강은 새 클러스터에 적합한 선택이 될 수 있습니다. 그러나 이것은 가장 오른쪽에있는 빨강에 대한보다 명확한 빨강 선택과 모순 될 수 있습니다. .
이것에 대해 생각하는 것이 비린내가 있습니다. 하루가 끝날 때 나는 이것에 대한 완벽한 규칙이 없다고 생각합니다. 오히려 약간의 안정성 크리 테리아를 최적화하는 휴리스틱입니다.
이것은 마침내 내 질문으로 이어집니다.
- 이 "문제"에 언급 될 수있는 이름이 있습니까?
- 이것에 대한 "표준"솔루션이 있습니까?
- ... 아마도 R 패키지가 있습니까?