멀티 클래스 부스트 분류기 보정


19

나는 Alexandru Niculescu-Mizil과 Rich Caruana의 논문 " 부스트에서 교정 된 확률 얻기 " 와이 글 에서 토론을 읽었다 . 그러나 여전히 멀티 클래스 부스팅 분류기 (의사 결정 그루터기가있는 부스트)의 출력을 보정하기 위해 물류 또는 Platt의 스케일링 을 이해하고 구현하는 데 여전히 어려움이 있습니다.

나는 일반화 된 선형 모델에 어느 정도 익숙하며, 이진 경우 물류 및 Platt의 보정 방법이 어떻게 작동하는지 이해하지만 종이에 설명 된 방법을 멀티 클래스 케이스로 확장하는 방법을 모르겠습니다.

내가 사용하는 분류기는 다음을 출력합니다.

  • = 분류중인샘플대해분류자가 클래스대해캐스팅 한 투표 수fij나는ji
  • yi = 예상 클래스

이 시점에서 다음과 같은 질문이 있습니다.

Q1 : 확률을 추정하기 위해 다항 로짓을 사용해야합니까? 또는 여전히 로지스틱 회귀로이 작업을 수행 할 수 있습니까 (예 : 일대일 방식)?

Q2 : 멀티 클래스 사례에 대한 중간 목표 변수 (예 : Platt의 스케일링)를 어떻게 정의해야합니까?

Q3 : 이것이 많이 요구 될 수 있음을 알고 있지만,이 문제에 대한 의사 코드를 기꺼이 스케치 할 사람이 있습니까? (보다 실용적인 수준에서 Matlab의 솔루션에 관심이 있습니다).


1
좋은 질문입니다. 1 대 나머지 종류의 구성표를 사용하더라도 보정을 구성하는 방법에 대해서도 궁금했습니다. 1 대 나머지를 사용하여 k 모델을 만들고 (k 클래스가있는 경우) 어떻게 1을 합산하도록 정규화해야합니까 (예 : 각 보정 확률을 모든 k의 합으로 나눕니다)?
B_Miner

답변:


9

이것은 나에게도 실용적인 관심 주제이므로 약간의 연구를했습니다. 다음은이 문제에 대한 참고 문헌으로 종종 나열된 저자의 두 논문입니다.

  1. 분류기 점수를 정확한 멀티 클래스 확률 추정값으로 변환
  2. 확률 추정값을 결합하여 멀티 클래스를 이진으로 줄임

여기서 주장 된 기술의 요점은 멀티 클래스 문제를 이진 문제 (예 : 하나 대 나머지, AKA 하나 대 모든 것)로 줄이고, Platt (바람직하게는 테스트 세트 사용)와 같은 기법을 사용하여 이진 점수 / 확률을 그런 다음 논문에서 논의 된 기술을 사용하여 이들을 결합합니다 (하나는 Hastie 등 "커플 링"프로세스의 확장입니다). 첫 번째 링크에서 이진 확률을 1로 합산하여 정규화함으로써 최상의 결과를 얻었습니다.

다른 조언을 듣고 싶습니다. R에 이러한 기술이 적용되어 있다면 말입니다.


답변에 언급 된 링크가 오래되었습니다. 최신 링크 : citeseerx.ist.psu.edu/viewdoc/… citeseerx.ist.psu.edu/viewdoc/…
Chandra


이 답변을 에코. 이것은 얼마 동안 나를 혼란스럽게했지만 Zadrozny와 Elkan의 논문은 유용하다고 입증되었습니다.
songololo 2016 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.