클러스터를 구축 한 다음 해당 모델 을 구축 하는 것은 절대적으로 가능합니다. 의견에 따르면 클러스터가 결과 변수를 완벽하게 분리하여 분류기에 어려움을 겪을 것이라는 이론적 인 문제는 이론적 문제이지만 필자는 그렇지 않을 것이라고 생각합니다 (특히 높은 차원의 경우). 또한 그러한 클러스터를 만들 수 있다면 예측을 위해 해당 클러스터를 사용할 수 있습니다!kk
또한 프로세스가 샘플로 시작 하면 분류기는 만 사용할 수 있습니다.NN/k견본. 따라서 회귀의 혼합을 사용하여 클러스터의 이질성을 통합하는 단일 분류기를 작성하는 데 클러스터를 사용하는 것이 더 강력한 방법입니다. 모델 기반 클러스터링에서는 데이터가 혼합 분포에서 생성된다고 가정합니다.Yi∼N(μi,σ2i) 어디 i=1 확률로 π 과 i=2 확률로 1−π 과 μ1≠ μ2 과 σ21≠σ22. 혼합 회귀는 공변량에 따라 데이터를 모델링 할 수있는 확장입니다.μi 로 대체 βiXi여기서 βi추정해야합니다. 이 예는 일 변량 가우스 사례에 대한 것이지만 프레임 워크는 많은 데이터를 수용 할 수 있습니다 (다항식-로그는 범주 형 변수에 적합합니다). flexmix 패키지 R에 대한 좀 더 자세한 설명을 제공하고, 물론 상대적으로 쉽고 확장 가능한 방식이 방식을 구현합니다.
대안 적으로, 차별적 인 설정에서, 선택 분류 알고리즘 (예를 들어, NB, ANN, SVM, RF 등)을 훈련시키기위한 기능으로서 클러스터 할당 (하드 또는 소프트)을 통합하려고 시도 할 수있다.