다중 레이블 데이터의 정확성을 측정하는 방법은 무엇입니까?


25

KnownLabel 매트릭스 및 PredictedLabel 매트릭스가 제공되는 시나리오를 고려하십시오. KnownLabel 매트릭스에 대한 PredictedLabel 매트릭스의 장점을 측정하고 싶습니다.

그러나 여기서의 과제는 KnownLabel 매트릭스에는 하나의 행이 하나만 있고 다른 몇 행에는 많은 행이 있다는 것입니다 (이 인스턴스는 다중 레이블이 지정됨). KnownLabel 매트릭스의 예는 다음과 같습니다.

A =[1 0 0 0
    0 1 0 0
    0 1 1 0
    0 0 1 1
    0 1 1 1]

상기 행렬에서, 데이터 인스턴스 1 및 2는 단일 라벨 데이터이고, 데이터 인스턴스 3 및 4는 2 개의 라벨 데이터이고 데이터 인스턴스 5는 3 개의 라벨 데이터이다.

이제 알고리즘을 사용하여 데이터 인스턴스의 PredictedLabel 매트릭스를 사용했습니다.

KnownLabel Matrix에 대한 PredictedLabel Matrix의 장점을 측정하는 데 사용할 수있는 다양한 측정 방법을 알고 싶습니다.

나는 그들 사이의 frobeinus 규범의 차이를 측정 중 하나로 생각할 수 있습니다. 그러나 정확도와 같은 측정법을 찾고 있습니다 (=Correctly_predicted_instancetotal_instance)

여기서 여러 데이터 인스턴스에 대한 를 어떻게 정의 할 수 있습니까?Correctly_predicted


5
(+1) 사이드 노트 : 대부분의 질문에 대한 답변을받지 못한 특별한 이유가 있습니까? 제공된 답변으로 문제가 해결되지 않은 이유는 무엇입니까? 예 : stats.stackexchange.com/questions/9947/…
steffen

답변:


23

(1)은 좋은 개요를 제공합니다.

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

위키 백과 페이지 N 멀티 라벨 분류 뿐만 아니라 평가 지표에 대한 섹션이 포함되어 있습니다.

다중 레이블 설정에서 정확도가 모호하다는 경고를 추가합니다. 정확한 일치 비율 또는 해밍 점수를 참조 할 수 있습니다 (이 게시물 참조 ). 불행히도 많은 논문에서 "정확성"이라는 용어를 사용합니다.


(1) Sorower, 모하마드 S. " 멀티 라벨 학습을위한 알고리즘에 대한 문헌 조사. "오레곤 주립 대학, 코발리스 (2010).


2
이러한 정의는 Precision 및 Recall에 대한 일반 정의와 상충됩니까? 나는 항상 정밀도를 TP + FP로 나누고 리콜을 TP + FN으로 나눠야한다는 것을 읽었습니다 (여기서 제안 된 정의는 잘 이해하면 반대입니다).
tomasyany

YiY={0,1}kiZi=h(xi)={0,1}khYiZi

에 대한 accuracy측정, 당신은 어떻게 우아 곳 분모 사건을 처리하나요 |Y + Z| == 0?
ihadanny

3
@tomasyany는 텍스트 정의 (공식이 아님)를 가리키며 전환 된 것으로 보입니다.
Narfanar

이 AP 정의는 mAP (평균 AP)와 비슷합니다. '정확도'라고하는 것은 평균 IoU입니다. 이 용어는 전반적으로 약간 혼란 스럽습니다.
Narfanar


3

Correctly Predicted제안 된 레이블 집합과 예상 레이블 집합 간의 교차점입니다. Total Instances위의 세트의 합집합입니다 (중복 카운트 없음).

따라서 클래스를 예측 A, G, E하고 테스트 케이스가 E, A, H, P올바른 클래스 로 끝나는 단일 예제 가 제공 됩니다.Accuracy = Intersection{(A,G,E), (E,A,H,P)} / Union{(A,G,E), (E,A,H,P)} = 2 / 5

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.