클러스터링 방법을 선택하는 방법은 무엇입니까? 방법 선택을 보장하기 위해 클러스터 솔루션의 유효성을 검사하는 방법은 무엇입니까?


35

군집 분석의 가장 큰 문제 중 하나는 사용 된 다른 군집 방법 (계층 군집의 다른 연결 방법 포함)을 기반으로 다른 결론을 도출해야 할 수도 있다는 것 입니다.

방법 에 대한 귀하의 의견을 알고 싶습니다- 어떤 방법을 선택하고 어떻게 해야합니까 ? "클러스터링의 가장 좋은 방법은 정답을 제공하는 것입니다."라고 말할 수 있습니다. 그러나 클러스터 분석이 감독되지 않은 기술 이어야한다는 응답으로 질문 할 수 있습니다. 따라서 어떤 방법이나 연결이 정답인지 어떻게 알 수 있습니까?

일반적으로 클러스터링만으로도 충분히 신뢰할 수 있습니까? 아니면 두 번째 방법이 필요하고 두 가지를 기반으로 공유 결과를 얻습니까?

내 질문은 클러스터링 성능 을 검증 / 평가 하는 가능한 방법에 관한 것이 아니라 다른 클러스터링 방법 / 알고리즘 중 하나를 선택 / 선호하는 기준에 따라 더 넓습니다 . 또한 데이터 클러스터링 방법을 선택할 때주의해야 할 일반적인 경고 가 있습니까?

나는 매우 일반적인 질문이며 대답하기가 매우 어렵다는 것을 알고 있습니다. 나는 당신이 이것에 대해 더 많이 배울 수있는 의견이나 조언이나 제안이 있는지 알고 싶습니다.


비슷한 질문 도 확인하십시오 .
ttnphns 2016 년

그리고 이것 .
ttnphns 2016 년

2
내부 및 외부 검증에 관한 링크는 다음과 같습니다 . 그리고 이것 . 그리고 그것은 . 그리고 그것은 . 그리고 그것은 . 그리고 이것 . 그리고 저쪽에 . 그리고 더 검색하십시오.
ttnphns 2016 년

답변:


50

클러스터 분석과 마찬가지로 "뿌린대로 깎을 것"종류와 같은 다른 분석 기법이없는 경우가 종종 있습니다.

나는 이것 또는 그 클러스터링 방법 의 "적합성"의 여러 차원 또는 측면을 상상할 수있다 .

  1. 클러스터 은유 . "이 방법은 특정 프로젝트에서 클러스터 개념과 일치하는 클러스터를 구성하기 때문에이 방법을 선호했습니다 . " 각 클러스터링 알고리즘 또는 하위 알고리즘 / 방법은 클러스터의 해당 구조 / 빌드 / 모양을 의미합니다. 계층 적 방법에 관해서는, 나는 포인트 중 하나이 관찰했습니다 여기에 도하고, 여기에. 즉, 일부 방법은 프로토 타입으로 "유형"인 클러스터를 제공하고, 다른 방법은 "관심 분야별 원", 다른 "[정치] 플랫폼", "클래스", "체인"등을 제공합니다. 클러스터 은유가 적합한 방법을 선택하십시오. 예를 들어, 고객 세그먼트를 유형으로 볼 때 중간 정도의 압축을 가진 구형 또는 다소 구형 모양을 선택하면 Ward의 연결 방법 또는 K- 평균을 선택하지만 단일 연결 방법은 명확하게 선택하지 않습니다. 초점 대표 점이 필요한 경우 메도 이드 방법을 사용할 수 있습니다. 핵심 및 주변 장치 대표가되는 포인트를 선별해야하는 경우 DBSCAN 방식을 사용할 수 있습니다.

  2. 데이터 / 방법 가정 . "내 데이터 특성이나 형식이 우선하기 때문에이 방법을 선호했습니다 . " 이 중요하고 광대 한 점은 위의 링크에서도 언급됩니다. 다른 알고리즘 / 방법은 데이터에 적용하기 위해 다른 종류의 데이터 또는 다른 근접성 측정을 요구할 수 있으며, 그 반대의 경우에도 다른 데이터는 다른 방법을 요구할 수있다. 정량적 방법과 정 성적 데이터 방법이 있습니다. 혼합물 정량적 + 정 성적 특징은 방법 중에서 선택의 범위를 획기적으로 좁 힙니다. 와드 또는 K- 평균명시 적 또는 암시 적 (제곱) 유클리드 거리 근접 측정만을 기반으로하며 임의의 측정이 아닙니다. 이진 데이터는 특별한 유사성 측정을 요구할 수 있으며, 이는 결국 Ward 또는 K- 평균과 같은 일부 방법을 사용하여 강력하게 의문을 제기 할 수 있습니다. 빅 데이터에는 특수 알고리즘 또는 특수 구현이 필요할 수 있습니다.

  3. 1대략), 따라서, 주어진 데이터 세트의 임의의 특이성으로 인해 높은 유효성이 부분적으로 발생할 수있다; 테스트 데이터 세트를 갖는 것이 항상 유리합니다.]

  4. 외부 유효성 . "이 방법은 배경에 따라 다른 클러스터 또는 내가 알고있는 실제 클러스터와 일치하는 클러스터를 제공했기 때문에이 방법을 선호했습니다 . " 클러스터링 파티션이 중요한 배경 (즉, 클러스터 분석에 참여하지 않음) 특성에서 명확하게 다른 클러스터를 제공하는 경우 파티션을 생성 한 해당 방법의 자산입니다. 차이를 확인하기 위해 적용되는 분석을 사용하십시오. 유용한 외부 클러스터링 기준도 많이 있습니다(토지, F- 측정 등). 외부 검증 사례의 또 다른 변형은 데이터를 직접 생성 한 경우와 같이 데이터의 실제 클러스터를 알고있는 경우입니다 ( "지상 사실"을 알고 있음). 그렇다면 클러스터링 방법이 실제 클러스터를 정확히 파악할 수있는 정도는 외부 유효성의 척도입니다.

  5. 교차 유효성 . "동일한 데이터 샘플에 대해 매우 유사한 군집을 제공하거나 이러한 샘플에 잘 외삽되기 때문에이 방법을 선호했습니다 . " 다양한 접근법과 그 하이브리드가 있으며, 일부는 일부 클러스터링 방법으로 가능하고 다른 방법은 다른 방법으로 가능합니다. 안정성 점검과 일반화라는 두 가지 주요 접근 방식검사. 클러스터링 방법의 안정성을 확인하면 데이터가 부분적으로 교차하거나 완전히 분리 된 세트로 데이터를 무작위로 분할하거나 다시 샘플링하고 각 클러스터링을 수행합니다. 그런 다음 세트 전체에 걸쳐 안정적인지 여부에 관계없이 응급 클러스터 특성 (예 : 클러스터의 중앙 경향 위치)을 사용하여 솔루션을 일치시키고 비교합니다. 일반화 가능성을 확인하는 것은 기차 세트에서 클러스터링을 수행 한 다음 출현 클러스터 특성 또는 규칙을 사용하여 테스트 세트의 오브젝트를 지정하고 테스트 세트에서 클러스터링을 수행함을 의미합니다. 테스트 세트 오브젝트의 지정 결과와 클러스터링 결과의 클러스터 멤버쉽이 비교됩니다.

  6. 해석 . "이 방법은 세상에 의미가 있다고 설득력이있는 클러스터를 제공했기 때문에 선호했습니다 . " 그것은 통계적이지 않습니다-그것은 당신의 심리적 검증입니다. 귀하, 도메인 및 잠재 고객 / 고객에게 결과가 얼마나 의미가 있습니까? 가장 해석하기 쉽고 매운 결과를 제공하는 방법을 선택하십시오.

  7. 욕심 . 일부 연구는 정기적이고 모든 연구는 때때로 "이 방법을 선호하기 때문에 내가 조사한 모든 방법 중에서 다른 방법과 비슷한 결과를 얻었 기 때문에이 방법을 선호했습니다" 라고 말합니다 . 이것은 보편적 인 데이터 나 보편적 인 방법이 있다고 가정하는 경험적이지만 의심스러운 전략입니다.

포인트 1과 2는 이론적이며 결과를 얻기 전에 이 점들에 독점적으로 의존하는 것은 거만하고 자기 확신적인 탐색 전략입니다. 포인트 3, 4 및 5는 경험적이며 결과를 따릅니다. 이 점에 독점적으로 의존하는 것은 fidgety, try-all-out 탐색 전략입니다. 포인트 6은 창의적이며 결과를 재조정하기 위해 결과를 거부 함을 의미합니다. 포인트 7은 충성스러운 mauvaise foi입니다.

포인트 3에서 7까지는 "최고의" 클러스터 수를 선택할 때 판단 할 수 있습니다 .


1


1
나는 K-means와 Ward 계층 적 군집의 클러스터 내 분산과 Dunn 지수의 합과 같은 내부 유효성 측정법을 정말 좋아합니다. 그것들은 데이터 독립적이며 때로는 클러스터링 알고리즘과는 독립적이지만 심지어 일부 알고리즘은 특정 알고리즘에서만 의미가 있습니다.
Douglas De Rizzo Meneghetti

2
@DouglasDeRizzoMeneghetti 동의하지 않습니다. 데이터와 무관하거나 (선형 및 속성의 동등성과 같이 데이터에 대해 매우 강력한 가정을 함) 클러스터링 알고리즘과 무관합니다. 실제로 모든 내부 측정 값은 자체 클러스터링 알고리즘입니다 (이 기능을 최적화 할 수 있습니다-일반적으로 수행하기에는 너무 비쌉니다).
Anony-Mousse

1
클러스터 내 분산의 합과 같은 일부 내부 유효성 측정은 클러스터 내 분산의 합을 최소화하는 경향이있는 군집화 방법을 통해 클러스터 구성원 자격을 획득 한 경우 Dunn과 같은 유효성 측정이 더 나은 결과를 나타냅니다 인덱스는 양호한 군집이 간결하고 멀리 떨어져 있다고 가정하지만 ( "소형"및 "원거리"에 대한 해석은 해석에 개방적 임에도 불구하고) 기능 값과 군집 구성원만으로 이러한 측정 값을 계산할 수 있다는 사실 요소는 매우 다재다능합니다.
Douglas De Rizzo Meneghetti

9

주로 적기 기준이 있습니다. 특정 접근 방식이 실패한다는 것을 알려주는 데이터 속성.

  1. 데이터의 의미 를 모를 경우 분석을 중지하십시오. 당신은 구름에 동물을 추측하고 있습니다.

  2. 속성의 크기가 다양하고 비선형이거나 비뚤어진 경우 적절한 정규화에 대한 좋은 아이디어가 없다면 분석을 망칠 수 있습니다. 중지하고 기능 이해를 배우십시오. 클러스터하기에는 너무 이릅니다.

  3. 모든 속성이 동일하고 선형이며 선형이고 데이터 세트 를 양자화 하려는 경우 (최소 제곱 오차는 데이터에 의미가 있음) k- 평균은 시도해 볼 가치가 있습니다. 속성의 종류와 규모가 다르면 결과가 잘 정의되지 않은 것입니다. 반례 : 나이와 소득. 소득은 매우 치우치고 x years = y dollar말도 안됩니다.

  4. 유사성 또는 거리 를 정량화하는 방법에 대한 명확한 아이디어가있는 경우 ( 의미있는 방식으로; 일부 숫자를 계산하는 기능으로는 충분하지 않음) 계층 적 군집화 및 DBSCAN이 적합합니다. 유사성을 정량화하는 방법을 모르는 경우 먼저 해당 문제를 해결하십시오.

가장 일반적인 문제는 사람들이 원시 데이터를 이해하고 정규화하고 유사성을 파악해야 할 때 원시 데이터를 클러스터링에 덤프하려고한다는 것입니다.

예 :

  1. RGB 공간에서 이미지의 픽셀. 최소 제곱은 의미가 있으며 모든 속성은 비슷합니다. k- 평균을 선택하는 것이 좋습니다.

  2. 지리 데이터 : 최소 제곱이 적절하지 않습니다. 이상 치가있을 것입니다. 그러나 거리는 매우 의미가 있습니다. 노이즈가 많은 경우 DBSCAN을 사용하고 매우 깨끗한 데이터가있는 경우 HAC (계층 적 응집 클러스터링)를 사용하십시오.

  3. 다른 서식지에서 관찰 된 종. 최소 제곱은 모호하지만 자카드 유사성은 의미가 있습니다. 관찰 결과는 거의없고 "거짓"서식지는 없습니다. HAC를 사용하십시오.


+1. 나는 대신에 다른 표현을 찾도록 간청합니다 stop criteria. 아시다시피, "중지 규칙"또는 "중지 기준"은 계층 적 군집 도메인에서 "내부 군집 기준"과 동의어 입니다. 그래서 그것은 선점 된 용어입니다. 그러나 당신은 대답에서 다른 의미 로이 단어를 의미하며, 이것은 독자를 혼란스럽게 할 수 있습니다.
ttnphns

1
"레드 플래그 기준"은 어떻습니까? HAC에 대한 임계 값을 중지하면 요점을 알 수 있습니다.
Anony-Mousse

나를 위해 좋은, 좋은 선택.
ttnphns

pts 2,3에서는이라고 말합니다 (non)linear attributes. 무슨 소리 야? 어떤 방법으로 "선형"속성입니까? 아니면 선형 관계 , 즉 타원체 (곡선이 아닌) 모양의 클러스터에 대해 말하고 있습니까?
ttnphns

지수 분포와 같은 데이터.
Anony-Mousse

3

나는 이것을 할 수있는 공식적인 방법이 없다고 생각한다. 좋은 해결책은 실질적으로 의미가있는 것이라고 생각합니다.

물론 데이터를 분할하고 여러 번 클러스터링을 시도 할 수 있지만 어느 것이 유용한 지 여전히 의문입니다.


2
나는 이해 가 되는 용어 충분히 강조 될 수 없다고 생각합니다 . 그것은 또한 내 대답의 핵심 포인트입니다. 먼저 데이터를 이해해야합니다.
Anony-Mousse

@ Anony-Mousse, 당신의 측면에서 과잉. 데이터를 "이해하는"방법을 모르거나 잊어 버린 사람들은이 사이트를 거의 방문하지 않으며 여기서 질문 한 것과 같은 좋은 질문을하지 않습니다.
ttnphns 2019

@ttnphns 나는 그런 사람들이 얼마나 자주이 사이트를 방문하는지 모르겠다. 그리고 그들은 그런 질문을하지 않는다. 그러나 많은 사람들이 클러스터 분석이 Excel 함수처럼 작동하기를 기대합니다. 데이터를 선택하고 "클러스터"를 클릭하면 매직 고객 세그먼트가 나옵니다. 어느 것이 무작위보다 훨씬 잘 작동하지 않는 것 같습니다. : 그리고이 사용자를 예 그의 데이터를 이해하는 데 실패 stats.stackexchange.com/q/195521/7828
Anony - 무스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.