최근에는 다중 레이블 순위 알고리즘을 평가하기위한 메트릭을 선택해야했고이 주제에 도달했습니다. 다음은 stpk의 답변에 대한 추가 사항으로, 선택에 도움이되었습니다.
- 대략적인 비용으로 MAP 을 여러 라벨 문제에 맞게 조정할 수 있습니다.
- k에서 MAP를 계산할 필요는 없지만 음수 클래스가 우세 할 경우 다중 레이블 버전을 조정할 수 없습니다.
- MAP 및 (N) DCG 는 모두 순위 관련성 값의 가중 평균으로 다시 작성할 수 있습니다.
세부
MAP (평균 평균 정밀도)는 여러 쿼리에 대한 평균 AP이므로 평균 정밀도 (AP)에 중점을 두겠습니다. AP는 이진 데이터에서 정밀 리콜 곡선 하의 영역으로 올바르게 정의되며, 각 양수 항목에서 정밀도의 평균으로 다시 쓸 수 있습니다. ( MAP에 대한 Wikipedia 기사 참조 ) 가능한 근사치는 각 정밀도의 평균으로 정의하는 것입니다.안건. 안타깝게도, 우리는 목록의 끝에서 순위가 매겨진 부정적인 예가 AP의 가치에 영향을 미치지 않는다는 좋은 속성을 잃습니다. (이것은 긍정적 인 예보다 훨씬 더 부정적인 예가있는 검색 엔진을 평가할 때 특히 슬프다. 가능한 해결 방법은 다른 단점을 희생하면서 부정적인 예를 서브 샘플링하는 것입니다. 긍정적 인 예가 거의없는 쿼리에는 어려움이 있습니다.)
반면에이 근사값은 다중 레이블 케이스에 대해 일반화되는 멋진 속성을 갖습니다. 실제로, 이진 경우에, 위치 k에서의 정밀도는 위치 k 이전의 평균 관련성으로 해석 될 수 있으며, 여기서 긍정적 인 예의 관련성은 1이고, 부정적인 예의 관련성은 0이다. 두 가지 이상의 관련성 수준이있는 경우. 이 경우, AP는 각 위치에서 관련성 평균의 평균으로 정의 할 수도 있습니다.
이 표현은 stpk에서 답변으로 인용 한 동영상 의 발표자가 선택한 표현입니다 . 그는이 비디오에서 AP가 관련성의 가중치 평균으로 다시 작성 될 수 있음을 보여줍니다 의 가중치는k
wAPk=1Klog(Kk)
K
wDCGk=1log(k+1)
이 두 가지 표현을 통해 AP는 1에서 0까지의 문서 무게를 측정합니다.-DCG는 총 문서 수와 독립적으로 문서 무게를 측정합니다.
두 경우 모두, 관련 예보다 관련성이없는 예가 훨씬 많으면 양성의 총 중량을 무시할 수 있습니다. AP의 경우 해결 방법은 음수 샘플을 서브 샘플링하는 것입니다.하지만 서브 샘플링 비율을 선택하는 방법과 쿼리 또는 양수 문서 수에 의존하는지 여부는 확실하지 않습니다. DCG의 경우 k 로자를 수 있지만 같은 종류의 질문이 발생합니다.
여기서 누군가가 주제에 대해 작업했다면 이것에 대해 더 많이들을 수있게되어 기쁩니다.