멀티 클래스 분류기를 여러 이진 분류기보다 낫습니까?


18

URL을 카테고리로 분류해야합니다. 모든 URL을 0으로 분류하려는 15 개의 카테고리가 있다고 가정 해 보겠습니다.

15-way 분류 기가 더 낫습니까? 여기서 15 개의 레이블이 있고 각 데이터 포인트에 대한 기능을 생성합니다.

또는 15 개의 이진 분류기를 작성하십시오 (예 : 영화 또는 영화가 아닌 경우).

답변:


12

우선, 문제가 다중 레이블인지 (즉, 단일 URL이 여러 클래스에 속할 수 있는지) 또는 아닌지 (즉, 단일 URL이 하나의 클래스에만 속할 수 있는지) 스스로에게 물어봐야합니다.

전자의 경우 다중 분류 문제를 수행하는 기본 방법이기 때문에 이진 분류기 배터리를 사용하십시오.

후자의 경우 대답은 데이터의 모양, 분석의 목표 및 사용중인 방법의 조합에 따라 달라집니다. 아마도 두 가지를 모두 시도하고 최선을 선택해야합니다.
SVM과 같은 일부 메소드는 실제로 정의 된 방식으로 인해 멀티 클래스 분류를 수행 할 수 없으므로 내부적으로 이진 분류기의 배터리를 사용합니다.


내 문제 진술은 이전 가정 @mbq를 고려하고 있습니다. 다중 레이블이 있음을 알고 있습니다. 그리고 네, 당신이 말했듯이 15 바이너리 분류 자로 가기로 결정했지만 다시 한 번 최고의 카테고리를 선택하기 위해 순위를 매길 필요가 있습니다. 따라서 이진 분류기의 배터리에서 얻은 숫자를 사용하여 다른 최상위 분류를 수행하려고합니다. 문제가 있습니까?
madCode

SVM은 멀티 클래스 분류를 수행 할 수 있습니다. 이 방법은 softmax 회귀와 매우 유사합니다 ( "멀티 클래스 커널 기반 벡터 시스템의 알고리즘 구현"참조).
user1149913

4

이것은 데이터가 어떻게 분산되어 있는지에 달려 있습니다. OP가 단일 선형 판별 함수가 모집단 A 대 B 또는 C를 결정하는 데 더 나은 분류기인지 또는 A를 분리하는 여러 선형 판별 함수를 기반으로하는 것이 더 나은지 알고 싶어하는 비슷한 질문에 최근에 주어진 아름다운 예가 있습니다. B와 C. 어떤 사람은 두 가지 판별법을 사용하는 것이 그 경우에 비해 두 가지 판별법을 사용하는 것이 더 좋은 방법을 보여주기 위해 아주 멋진 색상의 산점도를 제공했습니다. 나는 그것을 연결하려고합니다.


잠깐만 찾는 데 문제가 있지만 계속 찾고 있습니다.
Michael R. Chernick

링크를 찾을 수 없어서 죄송합니다. 왼쪽에는 한 가지 색의 구름이 있고 가운데에는 오른쪽에있는 다른 색의 구름이 있다고 상상해보십시오. 두 개의 선형 판별 라인은 중간 그룹을 왼쪽과 오른쪽으로 분리하는 데 효과적이지만 단일 라인은 전혀 효과가 없습니다. 그림은이 모든 단어보다 더 가치가있을 것입니다.
Michael R. Chernick 2016 년

1
@MichaelChernick이 링크 가 찾는 링크 입니까?

나는 당신이 말하는 것을 이해한다고 생각합니다 : bit.ly/M1NydS- 당신이 정의 한 그림이 프레젠테이션에서 나왔습니다. 4 방향 또는 3 방향 분류. 직접적 일 수 있습니다. 하지만 .. 15 가지 방법으로 분류 할 경우 정밀도 / 리콜이 손상 될지 궁금합니다. Chernick 박사.
madCode

@Procrastinator 그것을 찾아 주셔서 감사합니다. 나는 그것을 찾는 데 너무 많은 어려움을 겪고 있었고, 나는 많은 시간을 보는 것을 sopemnding하고 있었다! 젖꼭지가 찾기 쉽지만 최근 게시물이었습니다.
마이클 R. 체 르닉

1

예를 들어, 일부 메소드는 멀티 클래스 인 랜덤 포레스트 MLP를 잘 처리합니다.

당신이 그런 식으로 가고 싶지 않다면, ECOC가 문제에 대해 1 대 1을 모두 잘 수행 할 수 있으며 테스트 만 할 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.