순도를 계산하는 방법?

군집 분석에서 순도는 어떻게 계산합니까? 방정식은 무엇입니까?

나는 그것을 위해 그것을 할 코드를 찾고 있지 않다.

여기에 이미지 설명을 입력하십시오

$\omega_k$ 를 군집 k로하고 $c_j$ 를 클래스 j로 하자 .

순도는 실제로 정확도입니까? 샘플 크기에 대해 클러스터 당 실제로 분류 된 클래스의 양을 합한 것 같습니다.

방정식 소스

문제는 출력과 입력 사이의 관계는 무엇입니까?

완전 양성 (TP), 완전 음성 (TN), 거짓 양성 (FP), 거짓 음성 (FN)이있는 경우. 그것이 입니까 ? $Purity = \frac{TP_K}{(TP+TN+FP+FN)}$

clustering

— 이안 코 비치
소스

빠른 정의가 필요한 경우 : 클러스터링 순도 에 대한 최고의 Google 검색 **이 여기 에 수학 정의를 제공합니다. (** 최소한,

— 저마다-

나는 당신이 '순도'가 무엇을 의미하는지 전혀 모른다. 그러나 David Colquhoun은 "심장 순도의 흑 마법 검정"을 그의 뛰어난 교과서 Biostatistics (1971)의 111-114 페이지의 이항 샘플링의 예로 사용한다. 작성자의 웹 사이트에서 무료 PDF로 제공 : dcscience.net 질문과 관련이 없더라도 좋은 이야기입니다.

— Michael Lew

분류 트리에서 불순물을 측정하는 기능 중 일부는 재 치환 오류, 지니 지수 및 엔트로피입니다. (분류 트리는 특정 형태의 클러스터링을 수행하므로 이것이 관련이 있다고 생각합니다.) 이것이 도움이 되길 바랍니다.

— Angelorf

클러스터 분석의 맥락에서 Purity는 클러스터 품질의 외부 평가 기준입니다. 단위 범위 [0..1]에서 올바르게 분류 된 총 오브젝트 (데이터 포인트) 수의 백분율입니다.

P u r i t y = \frac{1}{N} \sum_{i = 1}^{k} m a x_{j} | c_{i} \cap t_{j} |

$Purity = \frac 1 N \sum_{i=1}^k max_j | c_i \cap t_j |$

여기서 $N$ = 오브젝트의 수 (데이터 포인트), $k$ = 클러스터의 수, $c_i$ 의 클러스터 인 $C$ , 그리고 $t_j$ 클러스터의 최대 수있는 분류 인 $c_i$

우리가 "올바로"라고 말할 때, 각 클러스터 $c_i$ 는 기본 진리가 지시 한 것과 동일한 클래스로 객체 그룹을 식별했음을 의미합니다. 우리는 지상 진실 분류를 사용 $t_i$ 우리가 어떤 클러스터 알고 있어야하므로 그러나 할, 할당 정확성의 조치로 해당 개체의 $c_i$ 있는 지상 진실 분류에 매핑 $t_i$ . 100 % 정확하다면, 각 $c_i$ 는 정확히 1에 매핑 될 것입니다. 그 점은 몇 가지 다른 분류로 그 근거가 진실로 분류되어 있습니다. 당연히 를 사용하여 최고의 클러스터링 품질을 얻을 수 있음을 알 수 있습니다. $t_i$ 되지만 실제로는 $c_i$ $c_i$ $t_i$ 올바른 분류의 가장 번호가 매핑 즉 $c_i \cap t_i$ . 그것이 방정식에서 $max$ 가 나오는 곳입니다.

순도 처음 만들 계산하려면 혼란이는 매트릭스 이는 각 클러스터 통해 반복하여 수행 할 수 있습니다 $c_i$ 하고 각 클래스 $t_i$ 로 분류 된 개체 .

   |  T1 |  T2  |  T3
---------------------
C1 |  0  |  53  |  10
C2 |  0  |  1   |  60
C3 |  0  |  16  |  0

그런 다음 각 클러스터 $c_i$ 에 대해 행에서 최대 값을 선택하고 함께 합한 다음 총 데이터 포인트 수로 나눕니다.

Purity = (53 + 60 + 16) / 140 = 0.92142

— 칼
소스

엔트로피에 대해서도 대답 해 주시겠습니까?

— MonsterMMORPG

여기 내 질문 : stackoverflow.com/questions/35709562/…

— MonsterMMORPG

내가 말할 "때"는 논리를 오버플로 "생각

분류 ... 최대 카운트입니다." 그러면

가 필요하지 않습니다 . 그런데, 고순도는 분류의 정확성을 나타내지 않습니까?

t_{j}

$t_j$

m a x_{j}

$max_{j}$

— LRDPRDX