조정 랜드 지수 대 조정 상호 정보


10

클러스터링 성능을 평가하려고합니다. 메트릭스 에 대한 skiscit-learn 문서를 읽고있었습니다 . ARI와 AMI의 차이점을 이해하지 못합니다. 그들은 두 가지 다른 방식으로 동일한 일을하는 것 같습니다.

문서에서 인용 :

기본 진리 클래스 할당 labels_true 및 동일한 샘플 labels_pred에 대한 클러스터링 알고리즘 할당에 대한 지식을 감안할 때 조정 된 랜드 인덱스 는 순열을 무시하고 확률 정규화를 사용하여 두 할당 의 유사성측정 하는 함수입니다 .

vs

기본 정보 클래스 할당 labels_true 및 동일한 샘플 labels_pred의 클러스터링 알고리즘 할당에 대한 지식을 감안할 때 상호 정보 는 순열을 무시하고 두 할당 의 합의측정 하는 함수입니다 ... AMI가 더 최근에 제안되어 정규화되었습니다. 기회.

클러스터링 평가에 두 가지를 모두 사용해야합니까, 아니면 중복입니까?


랜드 씨는 무작위가 아닙니다.
종료-익명-무스

답변:


2

그것들은 모두 클러스터링을 비교하려고하는 12 가지 중 2 가지입니다.

그러나 그것들은 동등하지 않습니다. 그들은 다른 이론을 사용합니다.

때로는 ARI가 하나의 결과를 선호하고 AMI가 다른 결과를 선호 할 수 있습니다. 그러나 종종 그들은 선호도가 아니라 숫자에 동의합니다.


"그들이 선호에 동의합니다 (숫자가 아님)?"
al27091

여러 결과를 비교할 때
종료 : 익명-무스

10

경험의 법칙은 다음과 같습니다.

  • 기본 진리 클러스터링의 크기동일한 클러스터의 크기 가 큰 경우 ARI 사용
  • 기본 진리 클러스터링이 불균형 하고 작은 클러스터 가있는 경우 미국 AMI

나는이 주제에 관해 일했다. 참조 : 기회 군집 비교 측정 조정


KMeans에 올바른 클러스터 수와 HDBSCAN에 대한 최소 클러스터 크기를 사용하여 일부 데이터 세트에 HDBSCAN 및 KMeans를 적용했습니다. 내 문제는 AMI의 진행이 ARI의 진행과 관련이 없다는 것입니다. 낮은 AMI에서 평균 0.3과 0.35를 얻습니다. 나는 0에 가까운 ARI 결과를 얻습니다 : 각각 0.07과 0.01 평균. HDBSCAN으로 더 나은 AMI를 얻은 경우에도 내 ARI 점수는 0에 매우 가깝습니다. 즉, AMI가 높은 경우에도 HDBSCAN은 KMeans보다 낮은 ARI를 생성합니다.
ryuzakinho

AMI의 0.3 및 0.35는 어떤 유형의 클러스터링 결과에 해당합니까?
Simone

1
pastebin.com/raw/WHvTxbLm 이것은 내가 이해하지 못하는 경우 중 하나입니다. AMI가 높을수록 ARI가 더 우수하다는 의미는 아니며 그 반대도 마찬가지입니다. 내가 어느 쪽의 상대적 개선을 믿어야 할 이유가 있습니까? 결과를 개선하기 위해 어떤 메트릭을 볼지 잘 모르겠습니다 (연결 한 논문에서 클래스 분포가 AMI이어야하지만 여전히 혼란 스럽습니다).
ryuzakinho

1
귀하의 경우 HDBSCAN 결과는 매우 큰 클러스터와 많은 작은 클러스터를 보여줍니다.이 클러스터는 정의에 따라 불균형 솔루션입니다. 따라서 AMI는 DBSCAN에서 더 큽니다. 당신의 진실은 그 해결책보다 더 균형 적입니다. 따라서 ARI를 사용하여 솔루션을 선택합니다. 이것은 얻은 클러스터링 솔루션이 그렇게 좋지 않은 것 같습니다. 클러스터가 많기 때문일 수 있습니다. 원하는 클러스터 수를 줄일 수 있습니까? 또는 순수 거리 기반 클러스터링을 사용하는 대신 고려해야 할 기능이 있습니까?
Simone

1
보다 정성적인 테스트 결과, AMI가 제 사용 사례에보다 안정적이라는 것이 밝혀졌습니다. 실제로 AMI는 HDBSCAN이 더 우수하다고 말했고 실제로 더 좋았습니다. 하나의 큰 노이즈 클러스터가 있었지만 다른 클러스터는 KMEANS 클러스터보다 더 깨끗했습니다.
ryuzakinho
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.