이진 분류 문제에 사용할 SVM 커널은 무엇입니까?


9

나는 벡터 머신을 지원할 때 초보자입니다. 특정 문제에 가장 적합한 커널 (예 : 선형, 다항식)을 나타내는 지침이 있습니까? 내 경우에는 특정 정보가 포함되어 있는지 여부에 따라 웹 페이지를 분류해야합니다. 즉, 이진 분류 문제가 있습니다.

일반적으로이 작업에 가장 적합한 커널을 말할 수 있습니까? 아니면 특정 데이터 세트에서 여러 데이터를 사용 해보고 가장 적합한 데이터 세트를 찾아야합니까? 그건 그렇고, libSVM 라이브러리를 사용하는 Python 라이브러리 scikit-learn 을 사용하고 있습니다.


웹 페이지를 어떻게 표현하십니까? 단어의 가방? 커널의 선택은 입력 공간에서 원하는 유사성 측정에 따라 다릅니다.
Memming

@Memming 네, 저는 bag-of-words 표현을 사용하고 있습니다. 유사성 측정이란 정확히 무엇을 의미합니까? 웹 페이지에 특정 종류의 정보가 포함되어 있는지 여부를 조사하고 있습니다.
pemistahl

이 자습서를 아직 확인하지 않은 경우이 자습서가 유용 할 수 있습니다 ( csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf ). Libsvm에는 모델과 모델 매개 변수 중에서 선택할 수있는 k- 폴드 교차 검증 체계가 내장되어 있습니다.
Zoran

@PeterStahl 또한, 어떤 종류의 클래스 경계가 필요한지에 따라 다릅니다. 나는 bag-of-words 공간에 대한 경험이 없기 때문에 많은 도움을 줄 수 없습니다.
Memming

답변:


10

당신은 실제로 문학에서 열린 질문에 부딪 쳤습니다. 당신이 말했듯이 다양한 커널 (예 : 선형, 방사형 기본 함수, 시그 모이 드, 다항식)이 있으며 각각의 방정식으로 정의 된 공간에서 분류 작업을 수행합니다. 내가 아는 한, 한 커널이 한 유형의 텍스트 분류 작업에서 다른 유형에 비해 항상 최고의 성능을 발휘한다는 것을 분명히 보여준 사람은 없습니다.

고려해야 할 한 가지는 각 커널 함수에 하나 이상의 매개 변수가 있으며 이는 데이터 세트에 맞게 최적화해야한다는 것입니다. 즉, 올바르게 수행하는 경우 두 번째 홀드 아웃 교육 모음이 있어야합니다. 이러한 매개 변수에 가장 적합한 값을 조사하십시오. (두 번째 홀드 아웃 컬렉션이라고합니다. 분류기에 가장 적합한 입력 기능을 파악하는 데 이미 사용중인 컬렉션이 있어야하기 때문입니다.) 나는 각각에 대해 대규모 최적화를 수행 한 실험을 한동안 거쳤습니다. 간단한 텍스트 분류 작업을위한 이러한 매개 변수는 각 커널이 합리적으로 잘 수행되는 것처럼 보이지만 서로 다른 구성에서 수행되었습니다. 내 결과를 정확하게 기억하면 sigmoid가 가장 잘 수행되었지만 매우 구체적인 매개 변수 조정에서 수행되었습니다.


당신의 생각에 대단히 감사합니다. 늦게 반응해서 죄송합니다. SVM뿐만 아니라 여러 분류기의 결과를 평가 해야하는 순간에 석사 논문을 작성하고 있습니다. 불행히도 많은 매개 변수 조합을 테스트 할 시간이 없습니다. 그래서 아마도 선형 커널을 고수 할 것입니다.
pemistahl

행운을 빕니다! 나는 그것이 좋은 전화라고 생각합니다.
카일.

7

가우스 커널을 사용해보십시오.

가우시안 커널은 종종 먼저 시도되며 많은 응용 프로그램에서 가장 유용한 커널로 사용됩니다 (자세한 내용도 포함). 선형 커널도 시도해야합니다. 좋은 결과를 기대하지 마십시오. 텍스트 분류 문제는 비선형적인 경향이 있습니다. 그러나 그것은 당신에게 데이터에 대한 느낌을주고 비선형 성이 결과를 얼마나 향상시키는 지에 대해 행복 할 수 있습니다.

커널 너비를 올바르게 교차 검증하고 기능 (tf-idf 등)을 정규화하는 방법에 대해 생각하십시오.

다른 커널 (가우시안이 아닌)을 선택하는 것보다 더 나은 기능 정규화로 결과를 향상시킬 수 있다고 말하고 싶습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.