클러스터 분석의 맥락에서 Purity는 클러스터 품질의 외부 평가 기준입니다. 단위 범위 [0..1]에서 올바르게 분류 된 총 오브젝트 (데이터 포인트) 수의 백분율입니다.
Purity=1N∑i=1kmaxj|ci∩tj|
여기서 N = 오브젝트의 수 (데이터 포인트), k = 클러스터의 수, ci 의 클러스터 인 C , 그리고 tj 클러스터의 최대 수있는 분류 인ci
우리가 "올바로"라고 말할 때, 각 클러스터 ci 는 기본 진리가 지시 한 것과 동일한 클래스로 객체 그룹을 식별했음을 의미합니다. 우리는 지상 진실 분류를 사용 ti 우리가 어떤 클러스터 알고 있어야하므로 그러나 할, 할당 정확성의 조치로 해당 개체의 ci 있는 지상 진실 분류에 매핑 ti . 100 % 정확하다면, 각 ci 는 정확히 1에 매핑 될 것입니다. 그 점은 몇 가지 다른 분류로 그 근거가 진실로 분류되어 있습니다. 당연히 c i 를 사용하여 최고의 클러스터링 품질을 얻을 수 있음을 알 수 있습니다.ti되지만 실제로는ciciti 올바른 분류의 가장 번호가 매핑 즉ci∩ti . 그것이 방정식에서 max 가 나오는 곳입니다.
순도 처음 만들 계산하려면 혼란이는 매트릭스 이는 각 클러스터 통해 반복하여 수행 할 수 있습니다 ci 하고 각 클래스 ti 로 분류 된 개체 .
| T1 | T2 | T3
---------------------
C1 | 0 | 53 | 10
C2 | 0 | 1 | 60
C3 | 0 | 16 | 0
그런 다음 각 클러스터 ci 에 대해 행에서 최대 값을 선택하고 함께 합한 다음 총 데이터 포인트 수로 나눕니다.
Purity = (53 + 60 + 16) / 140 = 0.92142