클러스터 알고리즘의 랜드 인덱스를 계산하는 방법을 알아 내려고 노력하고 있지만 참과 거짓 부정을 계산하는 방법에 갇혀 있습니다.
현재 저는 정보 검색에 대한 소개 (Manning, Raghavan & Schütze, 2009) 책의 예를 사용하고 있습니다. 359 페이지에서 Rand 지수를 계산하는 방법에 대해 설명합니다. 이 예에서는 3 개의 클러스터를 사용하며 클러스터에는 다음 객체가 포함되어 있습니다.
- aaaaab
- abbbbc
- 비속
나는 객체를 대체합니다 (일반 기호는 글자로 표시되지만 아이디어와 개수는 동일하게 유지됩니다). 나는 그들이 말하는 내용을보기 위해이 책에서 정확한 단어를 줄 것이다.
먼저 TP + FP를 계산합니다. 세 개의 군집에는 각각 6, 6 및 5 개의 점이 포함되므로 동일한 군집에있는 총 "양수"또는 문서 쌍의 수는 다음과 같습니다.
TP + FP = + + = 15 + 15+ 10 = 40
이 중 클러스터 1의 a 쌍, 클러스터 2의 b 쌍, 클러스터 3의 c 쌍 및 클러스터 3의 a 쌍은 다음과 같습니다.
TP = + + + = 10 + 6 + 3 + 1 = 20
따라서 FP = 40-20 = 20입니다.
여기까지 계산이 명확하고 다른 예제를 사용하면 동일한 결과를 얻을 수 있지만 거짓 부정 및 참 부정 Manning et al. 다음을 진술하십시오 :
FN과 TN도 비슷하게 계산되어 다음과 같은 우발성 테이블이 생성됩니다.
우발 사태 표는 다음과 같습니다.
+--------+--------+
| TP: 20 | FN: 24 |
+--------+--------+
| FP: 20 | TN: 72 |
+--------+--------+
"FN과 TN은 비슷하게 계산된다"는 문장은 명확하지 않으며 TN과 FN을 계산하는 데 필요한 숫자를 이해하지 못합니다. 다음을 수행하여 테이블의 오른쪽을 계산할 수 있습니다.
TP + FP + FN + TN = = = 136
출처 : http://en.wikipedia.org/wiki/Rand_index
따라서 FN + TN = 136-TP + FP = 136-40 = 96이지만 변수를 개별적으로 계산하는 방법을 알아내는 데 실제로 도움이되지는 않습니다. 특히 저자가 "FN과 TN은 비슷하게 계산된다"고 말할 때. 어떻게 보지 못합니다. 또한 다른 예제를 볼 때 각 쌍을 보면서 우발성 테이블의 각 셀을 계산합니다.
예를 들면 다음과 같습니다. http://www.otlet-institute.org/wikics/Clustering_Problems.html#toc-Subsection-4.1
Manning et al. (2009)의 예를 기반으로 한 첫 번째 질문은 TP 및 NP 만 알고 있으면 TN 및 FN을 계산할 수 있습니까? 그렇다면 주어진 예제를 기준으로 유사한 계산이 어떻게 표시됩니까?