순위 알고리즘 평가를위한 지표


15

알고리즘 순위에 대한 여러 가지 메트릭을보고 싶습니다. 위키 백과 학습 페이지에는 다음을 포함하여 몇 가지가 나와 있습니다.

• 평균 평균 정밀도 (MAP);

• DCG 및 NDCG;

• Precision @ n, NDCG @ n. 여기서 "@n"은 상위 n 개 문서에서만 메트릭이 평가됨을 나타냅니다.

• 평균 상호 순위;

• 켄달의 타우

• 스피어 맨의로

• 예상 상호 순위

• Yandex의 발목

그러나 각각의 장점 / 단점이 무엇인지 또는 서로를 선택할 수있는 경우 (또는 하나의 알고리즘이 NDGC에서 다른 알고리즘보다 성능이 우수하지만 MAP으로 평가할 때 더 나쁜 경우)의 의미는 분명하지 않습니다.

이 질문들에 대해 더 배울 수있는 곳이 있습니까?

답변:


28

나는 실제로 같은 대답을 찾고 있지만 적어도 부분적으로 귀하의 질문에 대답 할 수 있어야합니다.

언급 한 모든 측정 항목은 특성이 다르지만 불행히도 선택해야 할 측정 항목은 실제로 측정하려는 대상에 따라 다릅니다. 다음은 명심해야 할 몇 가지 사항입니다.

  • Spearman의 rho 메트릭은 맨 위의 불일치와 동일한 가중치로 목록 맨 위의 오류에 불이익을 주므로 대부분의 경우 순위를 평가하는 데 사용하는 메트릭이 아닙니다.
  • DCG 및 NDCG 는 비 이진 유틸리티 기능을 고려한 몇 가지 메트릭 중 하나이므로 레코드 의 유용성 여부 가 아니라 얼마나 유용한 지 설명 할 수 있습니다 .
  • DCG 및 NDCG 는 위치에 대한 고정 중량을 가지므로 주어진 위치의 문서는 위에 표시된 문서와 독립적으로 항상 동일한 이득 및 할인을 갖습니다.
  • 관련 문서 수로 값을 정규화 하기 때문에 일반적으로 DCG 보다 NDCG 를 선호 합니다.
  • MAP 는이 문제에 대한 고전적이고 '가는'측정 항목으로 간주되며 현장의 표준으로 보입니다.
  • (N) DCG 는 꼬리가 길기 때문에 항상 고정 된 양의 레코드 (@k)에 대해 계산해야합니다 (순위가 높을수록 관련없는 레코드가 메트릭을 크게 편향시킵니다). MAP 에는 적용되지 않습니다 .
  • 평균 왕복 순위 는 첫 번째 관련 문서의 위치 만 표시하므로 목록에서 가능한 한 많은 관련 문서를 염두에두면 선택하지 않아야합니다.
  • 켄달의 타우 이진 효용 함수를 처리 그것도 @k 계산한다 (유사한 NDCG )

귀중한 자원 :

  • YouTube의 Victor Lavrenko 강의 -MAP vs NDCG 에피소드에 대한 링크 일 뿐이지 만 강의 전체에 훨씬 더 많은 내용이 포함되어 있습니다 (Kendall의 Tau 포함). 당신은 확실히 그것을 확인해야합니다, 좋은 강의!
  • ERR 종이

새로운 계정으로 인해 더 많은 링크를 게시 할 수 없습니다. :) 더 많은 의견이나 아이디어가있는 사람이 있다면 기꺼이들을 수 있습니다.


더 많은 링크가 있으면이 답변을 업데이트하기에 충분한 포인트가 있다고 생각합니다.
Yash Kumar Atri

5

순위 알고리즘 (예 : Google 검색, Amazon 제품 권장 사항)을 적용하는 경우가 많으면 수백만 개의 결과가 나타납니다. 사용자는 ~ 20 정도 정도만보고 싶어합니다. 나머지는 완전히 관련이 없습니다.

k

애플리케이션에 해당되는 경우 메트릭에 직접적인 영향을 미칩니다.

  1. kk
  2. 2k

kk

순위에 대한 Top-k 분류 정확도

사실을 위해서는 명령을 정의하기가 어려울 수 있습니다. 그리고 관련성이 있거나 관련이없는 것을 구별하면 실제로 분류 케이스에 있습니다!

최고 정확도는 분류 기준입니다. Top-n 정확도의 정의는 무엇입니까?를 참조하십시오 . .

top-k accuracy=how often was at least one relevant element within the top-k of a ranking query?ranking queries

k

kk[5,20]

k

Precision @ k

Precision@k=number of relevant items within the top-kk[0,1], higher is better

그것이 당신에게 말하는 것 :

  • 그것이 높으면-> 사용자에게 보여지는 많은 것들이 그들과 관련이 있습니다.
  • 낮은 경우-> 사용자 시간을 낭비합니다. 당신이 보여주는 것의 대부분은 그들과 관련이 없습니다

리콜 @k

Recall@k=number of relevant items within the top-ktotal number of relevant items[0,1], higher is better

그 의미 :

  • 그것이 높은 경우 : 당신은 당신이 무엇을 보여! 당신은 그들에게 모든 관련 항목을 제공합니다.
  • 낮은 경우 : 관련 항목의 총량과 비교하여 k가 작거나 상단 k 내의 관련 항목이 작습니다. 이로 인해, 귀하는 retrieve @ k만으로는 그렇게 의미가 없을 수 있습니다. 고정밀 @k와 결합하면 k를 높이는 것이 좋습니다.

3

최근에는 다중 레이블 순위 알고리즘을 평가하기위한 메트릭을 선택해야했고이 주제에 도달했습니다. 다음은 stpk의 답변에 대한 추가 사항으로, 선택에 도움이되었습니다.

  • 대략적인 비용으로 MAP 을 여러 라벨 문제에 맞게 조정할 수 있습니다.
  • k에서 MAP를 계산할 필요는 없지만 음수 클래스가 우세 할 경우 다중 레이블 버전을 조정할 수 없습니다.
  • MAP(N) DCG 는 모두 순위 관련성 값의 가중 평균으로 다시 작성할 수 있습니다.

세부

MAP (평균 평균 정밀도)는 여러 쿼리에 대한 평균 AP이므로 평균 정밀도 (AP)에 중점을 두겠습니다. AP는 이진 데이터에서 정밀 리콜 곡선 하의 영역으로 올바르게 정의되며, 각 양수 항목에서 정밀도의 평균으로 다시 쓸 수 있습니다. ( MAP에 대한 Wikipedia 기사 참조 ) 가능한 근사치는 정밀도의 평균으로 정의하는 것입니다.안건. 안타깝게도, 우리는 목록의 끝에서 순위가 ​​매겨진 부정적인 예가 AP의 가치에 영향을 미치지 않는다는 좋은 속성을 잃습니다. (이것은 긍정적 인 예보다 훨씬 더 부정적인 예가있는 검색 엔진을 평가할 때 특히 슬프다. 가능한 해결 방법은 다른 단점을 희생하면서 부정적인 예를 서브 샘플링하는 것입니다. 긍정적 인 예가 거의없는 쿼리에는 어려움이 있습니다.)

반면에이 근사값은 다중 레이블 케이스에 대해 일반화되는 멋진 속성을 갖습니다. 실제로, 이진 경우에, 위치 k에서의 정밀도는 위치 k 이전의 평균 관련성으로 해석 될 수 있으며, 여기서 긍정적 인 예의 관련성은 1이고, 부정적인 예의 관련성은 0이다. 두 가지 이상의 관련성 수준이있는 경우. 이 경우, AP는 각 위치에서 관련성 평균의 평균으로 정의 할 수도 있습니다.

이 표현은 stpk에서 답변으로 인용 한 동영상 의 발표자가 선택한 표현입니다 . 그는이 비디오에서 AP가 관련성의 가중치 평균으로 다시 작성 될 수 있음을 보여줍니다 의 가중치는k

wkAP=1Klog(Kk)

K

wkDCG=1log(k+1)

이 두 가지 표현을 통해 AP는 1에서 0까지의 문서 무게를 측정합니다.-DCG는 총 문서 수와 독립적으로 문서 무게를 측정합니다.

두 경우 모두, 관련 예보다 관련성이없는 예가 훨씬 많으면 양성의 총 중량을 무시할 수 있습니다. AP의 경우 해결 방법은 음수 샘플을 서브 샘플링하는 것입니다.하지만 서브 샘플링 비율을 선택하는 방법과 쿼리 또는 양수 문서 수에 의존하는지 여부는 확실하지 않습니다. DCG의 경우 k 로자를 수 있지만 같은 종류의 질문이 발생합니다.

여기서 누군가가 주제에 대해 작업했다면 이것에 대해 더 많이들을 수있게되어 기쁩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.