순도를 계산하는 방법?


15

군집 분석에서 순도는 어떻게 계산합니까? 방정식은 무엇입니까?

나는 그것을 위해 그것을 할 코드를 찾고 있지 않다.

여기에 이미지 설명을 입력하십시오

ωk 를 군집 k로하고 cj 를 클래스 j로 하자 .

순도는 실제로 정확도입니까? 샘플 크기에 대해 클러스터 당 실제로 분류 된 클래스의 양을 합한 것 같습니다.

방정식 소스

문제는 출력과 입력 사이의 관계는 무엇입니까?

완전 양성 (TP), 완전 음성 (TN), 거짓 양성 (FP), 거짓 음성 (FN)이있는 경우. 그것이 P u r i t y = T P K 입니까 ?Purity=TPK(TP+TN+FP+FN)


3
빠른 정의가 필요한 경우 : 클러스터링 순도 에 대한 최고의 Google 검색 **이 여기 에 수학 정의를 제공합니다. (** 최소한,
저마다-

나는 당신이 '순도'가 무엇을 의미하는지 전혀 모른다. 그러나 David Colquhoun은 "심장 순도의 흑 마법 검정"을 그의 뛰어난 교과서 Biostatistics (1971)의 111-114 페이지의 이항 샘플링의 예로 사용한다. 작성자의 웹 사이트에서 무료 PDF로 제공 : dcscience.net 질문과 관련이 없더라도 좋은 이야기입니다.
Michael Lew

분류 트리에서 불순물을 측정하는 기능 중 일부는 재 치환 오류, 지니 지수 및 엔트로피입니다. (분류 트리는 특정 형태의 클러스터링을 수행하므로 이것이 관련이 있다고 생각합니다.) 이것이 도움이 되길 바랍니다.
Angelorf

답변:


25

클러스터 분석의 맥락에서 Purity는 클러스터 품질의 외부 평가 기준입니다. 단위 범위 [0..1]에서 올바르게 분류 된 총 오브젝트 (데이터 포인트) 수의 백분율입니다.

Purity=1Ni=1kmaxj|citj|

여기서 N = 오브젝트의 수 (데이터 포인트), k = 클러스터의 수, ci 의 클러스터 인 C , 그리고 tj 클러스터의 최대 수있는 분류 인ci

우리가 "올바로"라고 말할 때, 각 클러스터 ci 는 기본 진리가 지시 한 것과 동일한 클래스로 객체 그룹을 식별했음을 의미합니다. 우리는 지상 진실 분류를 사용 ti 우리가 어떤 클러스터 알고 있어야하므로 그러나 할, 할당 정확성의 조치로 해당 개체의 ci 있는 지상 진실 분류에 매핑 ti . 100 % 정확하다면, 각 ci 는 정확히 1에 매핑 될 것입니다. 그 점은 몇 가지 다른 분류로 그 근거가 진실로 분류되어 있습니다. 당연히 c i 를 사용하여 최고의 클러스터링 품질을 얻을 수 있음을 알 수 있습니다.ti되지만 실제로는ciciti 올바른 분류의 가장 번호가 매핑 즉citi . 그것이 방정식에서 max 가 나오는 곳입니다.

순도 처음 만들 계산하려면 혼란이는 매트릭스 이는 각 클러스터 통해 반복하여 수행 할 수 있습니다 ci 하고 각 클래스 ti 로 분류 된 개체 .

   |  T1 |  T2  |  T3
---------------------
C1 |  0  |  53  |  10
C2 |  0  |  1   |  60
C3 |  0  |  16  |  0

그런 다음 각 클러스터 ci 에 대해 행에서 최대 값을 선택하고 함께 합한 다음 총 데이터 포인트 수로 나눕니다.

Purity = (53 + 60 + 16) / 140 = 0.92142

엔트로피에 대해서도 대답 해 주시겠습니까?
MonsterMMORPG


내가 말할 "때"는 논리를 오버플로 "생각 분류 ... 최대 카운트입니다." 그러면 m a x j 가 필요하지 않습니다 . 그런데, 고순도는 분류의 정확성을 나타내지 않습니까? tjmaxj
LRDPRDX
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.