미시적 또는 거시적 평가 방법에 따라 결정해야합니까?


21

동일한 데이터 세트로 다른 이진 분류 알고리즘에서 10 배 교차 검증을 실행했으며 마이크로 및 매크로 평균 결과를 모두 받았습니다. 이것이 다중 레이블 분류 문제라는 점을 언급해야합니다.

필자의 경우, 참 부정과 참 긍정적 가중치는 동일하게 가중됩니다. 즉, 참 긍정을 정확하게 예측하는 것이 참 긍정을 정확하게 예측하는 것과 마찬가지로 중요합니다.

미세 평균 측정 값은 매크로 평균 측정 값보다 낮습니다. 다음은 신경망 및 지원 벡터 시스템의 결과입니다.

여기에 이미지 설명을 입력하십시오

또한 다른 알고리즘으로 동일한 데이터 세트에서 백분율 분할 테스트를 실행했습니다. 결과는 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

비율 분할 테스트와 매크로 평균 결과를 비교하는 것이 더 좋지만 공정합니까? 나는 진정한 긍정과 긍정의 부정이 동일하게 가중되기 때문에 거시 평균 결과가 바이어스된다고 믿지 않지만 다시 사과와 오렌지를 비교하는 것과 같은지 궁금합니다.

최신 정보

의견을 바탕으로 마이크로 및 매크로 평균을 계산하는 방법을 보여 드리겠습니다.

예측하려는 144 개의 레이블 (기능 또는 속성과 동일)이 있습니다. 각 레이블에 대해 정밀도, 회수 및 F- 측정이 계산됩니다.

---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
   ?   |    ?   |    ?   |   ?    | .. |     ?
---------------------------------------------------

진 양성 (tp), 진 음성 (tn), 위양성 (fp) 및 위음성 (fn)을 기반으로 계산 된 이진 평가 측정 값 B (tp, tn, fp, fn)를 고려합니다. 특정 측정의 매크로 및 마이크로 평균은 다음과 같이 계산할 수 있습니다.

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

이 공식을 사용하여 다음과 같이 마이크로 및 매크로 평균을 계산할 수 있습니다.

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

따라서 미량 평균 측정 값은 모든 tp, fp 및 fn (각 레이블에 대해)을 추가 한 후 새로운 이진 평가가 수행됩니다. 거시 평균 측정 값은 모든 측정 값 (정밀도, 리콜 또는 F- 측정)을 추가하고 레이블 수로 나눕니다. 이는 평균과 같습니다.

이제 질문은 어느 것을 사용해야합니까?


어떤 것을 사용할 것인지 물으면 의도 된 용도는 무엇입니까? 두 방법 중에서 선택하거나 결과를 요약하거나 다른 것을 선택 하시겠습니까?
Sean Easter

1
의도 된 용도는 어떤 모델이 가장 우수한지 파악하고 모델의 성능에 대한 정보를 제공하는 것입니다. Forman, George 및 Martin Scholz에 따르면 마이크로 측정이 우수하다는 것을 알았습니다. "교차 밸리데이션 연구에서의 사과 대 사과 : 분류기 성능 측정의 함정." ACM SIGKDD Explorations 뉴스 레터 12.1 (2010) : 49-57.
Kenci

@ Kenci, 나는 당신이 그것을 당신의 자신의 질문에 대한 답변으로 게시하고 올바른 답으로 확인해야한다고 믿습니다. 참조 주셔서 감사합니다!
fnl

답변:


27

모든 레이블의 크기가 거의 동일하다고 생각되면 (대략 같은 수의 인스턴스가 있음) any를 사용하십시오.

다른 것보다 인스턴스가 더 많은 레이블이 있다고 생각하고 가장 인구 가 많은 레이블을 향해 메트릭을 바이어스하려는 경우 micromedia를 사용 하십시오 .

다른 것보다 더 많은 인스턴스가있는 레이블이 있다고 생각하고 가장 인구가 적은 것을 향해 메트릭을 바이어스하려는 경우 (또는 적어도 가장 인구가 많은 것을 향해 바이어스하지 않으려는 경우) macromedia를 사용하십시오 .

는 IF micromedia의 결과는 상당히 낮은 매크로 미디어보다, 그것은 당신의 작은 레이블이 아마 제대로 분류되는 반면, 당신은 가장 인구 라벨의 일부 총 오 분류를 가지고 있다는 것을 의미한다. 는 IF 매크로 미디어의 결과가 micromedia 하나보다 훨씬 낮은, 당신의 더 큰 사람은 아마 제대로 분류되는 반면에 당신의 작은 라벨이 잘못 분류되는 것을 의미한다.

무엇을해야할지 모르겠다면, micro-와 macroaverage를 비교해보십시오 :)

이것은 주제에 관한 좋은 논문입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.