지속적인 온라인 클러스터 식별 솔루션?

가상 온라인 클러스터링 응용 프로그램의 예를 보여 드리겠습니다.

여기에 이미지 설명을 입력하십시오

시간 n에서 포인트 1,2,3,4는 청색 클러스터 A에 할당되고 포인트 b, 5,6,7은 적색 클러스터 B에 할당됩니다.

시간 n + 1에서, 파란색 점 A에 할당 된 새로운 점 a가 도입되지만, 점 b도 파란색 군집 A에 지정됩니다.

끝점 1,2,3,4, a, b는 A에 속하고 5,6,7은 B에 속합니다.

언뜻보기에 단순한 것처럼 보이는 것은 실제로 시간이 지남에 따라 식별자를 유지하는 것이 약간 까다 롭습니다. 좀 더 경계선이있는 예를 통해이 점을 분명히 해보도록하겠습니다.

여기에 이미지 설명을 입력하십시오

녹색 점은 두 개의 파란색과 두 개의 빨간색 점이 하나의 클러스터로 병합되어 임의로 파란색을 결정하기로 결정했습니다.

이 결정을 내리기 위해서는 컴퓨터가 규칙을 사용해야합니다. 예를 들어 포인트가 클러스터에 병합되면 클러스터의 ID가 대다수에 의해 결정됩니다. 이 경우 우리는 추첨에 직면하게 될 것입니다. 파란색과 빨간색 모두 새로운 (여기서는 파란색) 클러스터에 유효한 선택 일 수 있습니다.

녹색에 가까운 다섯 번째 빨간색 점을 상상해보십시오. 그런 다음 대다수는 빨강 (3 빨강 대 2 파랑)이되므로 빨강은 새 클러스터에 적합한 선택이 될 수 있습니다. 그러나 이것은 가장 오른쪽에있는 빨강에 대한보다 명확한 빨강 선택과 모순 될 수 있습니다. .

이것에 대해 생각하는 것이 비린내가 있습니다. 하루가 끝날 때 나는 이것에 대한 완벽한 규칙이 없다고 생각합니다. 오히려 약간의 안정성 크리 테리아를 최적화하는 휴리스틱입니다.

이것은 마침내 내 질문으로 이어집니다.

이 "문제"에 언급 될 수있는 이름이 있습니까?
이것에 대한 "표준"솔루션이 있습니까?
... 아마도 R 패키지가 있습니까?

반복적 클러스터링에서 클러스터 ID의 합리적인 상속

machine-learning clustering

— 라파엘
소스

통계에서 크로스 포스트 stats.stackexchange.com/questions/111911/... 및 유래 : stackoverflow.com/questions/24970702/...은

— Anony - 무스 - 종료 될

각 시간 단계에서 가능한 한 클러스터의 ID를 유지하려는 문제가 있습니까? N + 1에서 N의 클러스터와 N + 1의 클러스터 사이에 어떤 관계가 있기 때문에 클러스터가 어떻게 변경되었는지 말할 수 있습니까? 그리고 까다로운 비트는 클러스터가 분리되어 병합되면 어떻게됩니까?

— Spacedman

@Spacedman : BINGO :) joyofdata.de/blog/…

— 라파엘

나는 당신 이 이것 과 이것을

— farhawa

안정성-플라스틱 성 딜레마, 학습률 및 잊어 버린 알고리즘 :

먼저, 이것이 정말 좋은 질문이며 ML 알고리즘에 대한 이해를 향상시키는 것들을 자극하는 사고의 유형이라고 말하겠습니다.

이 "문제"에 언급 될 수있는 이름이 있습니까?

이를 일반적으로 "안정성"이라고합니다. 재미있는 점은 안정성은 실제로 온라인이 아닌 일반 클러스터링에서 유용한 개념이라는 것입니다. 알고리즘의 "안정성"은 종종 올바른 수의 군집이 선택되었는지 여부에 대한 선택 기준으로 선택됩니다. 보다 구체적으로 설명한 온라인 클러스터링 안정성 문제를이라고합니다 stability-plasticity dilemma.

이것에 대한 "표준"솔루션이 있습니까?

첫째, 많은 온라인 클러스터링 알고리즘은 대규모의 초기 데이터 코호트에 대해 잘 훈련을 받았을 때 놀라 울 정도로 안정적이라는 점이 큰 해답입니다. 그러나 알고리즘이 새 데이터에 반응하도록 허용하면서 점의 클러스터 ID를 실제로 세분화하려는 경우 여전히 문제가됩니다. Ethem Alpaydin의 기계 학습 소개 에서 간략하게 설명합니다 . 에 319 페이지 그는 확률 그라데이션 하강의 응용 프로그램을 통해 온라인 K-수단 알고리즘을 유도하지만,이 것을 언급 stability-plasticity dilemma학습 속도에 대한 값을 선택할 때 발생한다. 학습 속도가 작 으면 안정성이 발생하지만 시스템은 학습 속도가 클수록 적응성이 향상되지만 클러스터 안정성은 느슨해집니다.

최선의 방법은 확률 적 그래디언트 디센트 알고리즘을 제어 할 수있는 온라인 클러스터링 구현을 선택한 다음 학습 속도를 선택하여 건전한 교차 유효성 검사 절차를 사용할 때 최대한 안정성과 적응성을 극대화하는 것입니다.

내가 본 또 다른 방법은 데이터 스트림이 성숙함에 따라 오래된 포인트를 잊어 버리는 알고리즘을 잊어 버리는 것입니다. 이것은 빠른 시간 스케일에서 상당히 안정적인 시스템을 허용하고 느린 시간 스케일에서 진화를 허용합니다. Adaptive Resonance Theory를 해결하기 위해 만들어졌습니다 stability-plasticity dilemma. 당신은 찾을 수 이 문서에 흥미를.

나는 알고리즘을 제안하기에 R에 충분히 정통하지는 않지만 mini-batch k-means확률 적 기울기 하강 알고리즘에서 학습 속도를 제어 할 수 있는 알고리즘을 찾는 것이 좋습니다 .

이게 도움이 되길 바란다!

— AN6U5
소스