PR에 대해 하나의 값만있을 때 Precision-Recall 곡선을 형성하는 방법은 무엇입니까?


12

콘텐츠 기반 이미지 검색 시스템을 만드는 데이터 마이닝 할당이 있습니다. 5 마리의 동물 이미지가 20 개 있습니다. 총 100 개의 이미지가 있습니다.

내 시스템은 가장 관련성이 높은 10 개의 이미지를 입력 이미지로 반환합니다. 이제 Precision-Recall 곡선으로 시스템 성능을 평가해야합니다. 그러나 Precision-Recall 곡선의 개념을 이해하지 못합니다. 내 시스템이 고릴라 이미지에 대해 10 개의 이미지를 반환하지만 그 중 4 개만 고릴라라고 가정합니다. 반환 된 다른 6 개의 이미지는 다른 동물입니다. 그러므로,

  • 정밀도는 4/10 = 0.4(관련 반환) / (모든 반환)
  • 리콜은 4/20 = 0.2(관련 제품 반환) / (모든 관련 사항)

따라서 <0.2,0.4>곡선이 아닌 점만 있습니다. 커브 (예 : 점 집합)는 어떻게합니까? 반환 된 이미지 수를 변경해야합니까 (필자의 경우 10으로 고정됨)?


2
대부분의 모델은 클래스 자체가 아닌 클래스에 속할 확률을 지정합니다. 그렇지 않으면 분류기에서 하나를 짜냅니다. 확률 컷오프를 변경하여 곡선을 도출합니다. 사용하는 분류기를 언급하면 ​​더 자세한 답변을 얻을 수 있습니다.
찰스

특징 벡터 (색상, 질감 및 모양)를 계산하고 각각에 대한 유사성 점수를 얻은 다음 총 유사성 점수에 대해 합산 한 다음 내림차순으로 정렬합니다. 상위 10 개 이미지 인덱스가 가장 관련성이 높은 인덱스입니다. 이미지가 주문되었으므로 (20 고릴라, 20 기린 등) 이미지 인덱스에서 클래스 인덱스를 얻을 수 있습니다. 분류기 / 설명자 등의 개념을 완전히 이해하지 못했기 때문에 명확하게 알기를 바랍니다.
jeff

나는 질문을 잘 읽지 못했음을 깨달았습니다. 두 가지 문제가 있다고 생각했습니다 (고릴라 / 고릴라 없음). 저보다 더 많은 수업이 있으면 도움이 될 것입니다 : stats.stackexchange.com/questions/2151/…
charles

답변:


11

PR 곡선 생성은 ROC 곡선 생성과 유사합니다. 이러한 플롯을 그리려면 전체 테스트 세트 순위가 필요합니다. 이 순위를 지정하려면 이진 답변이 아닌 의사 결정 값 을 출력하는 분류 기가 필요합니다 . 결정 값은 모든 테스트 인스턴스의 순위를 정하는 데 사용할 수있는 예측에 대한 신뢰도입니다. 예로서, 로지스틱 회귀 및 SVM의 결정 값은 각각 분리 초평면에 대한 확률 및 (서명 된) 거리이다.

에프(엑스)=0.5(0,1)

임계 값을 선택할 때마다 모델에 따라 다른 예측 (예 : 다른 수의 긍정적 및 부정적 예측)이 생성됩니다. 따라서 정밀도가 다른 튜플 세트를 얻고 모든 임계 값 (예 : 튜플 세트 에서 리콜 합니다. PR 곡선은 쌍을 기준으로 그려집니다 .(나는,나는,아르 자형나는)(나는,아르 자형나는)

귀하의 의견을 올바르게 이해했다면 계산 한 총 유사성 점수를 결정 값으로 사용할 수 있습니다.


이것은 나에게 분명하지 않습니다. OP의 동물 이미지 검색 상황과 유사한 자세한 예를 통해 작업 할 수 있습니까?
MR
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.