당신은 실제로 문학에서 열린 질문에 부딪 쳤습니다. 당신이 말했듯이 다양한 커널 (예 : 선형, 방사형 기본 함수, 시그 모이 드, 다항식)이 있으며 각각의 방정식으로 정의 된 공간에서 분류 작업을 수행합니다. 내가 아는 한, 한 커널이 한 유형의 텍스트 분류 작업에서 다른 유형에 비해 항상 최고의 성능을 발휘한다는 것을 분명히 보여준 사람은 없습니다.
고려해야 할 한 가지는 각 커널 함수에 하나 이상의 매개 변수가 있으며 이는 데이터 세트에 맞게 최적화해야한다는 것입니다. 즉, 올바르게 수행하는 경우 두 번째 홀드 아웃 교육 모음이 있어야합니다. 이러한 매개 변수에 가장 적합한 값을 조사하십시오. (두 번째 홀드 아웃 컬렉션이라고합니다. 분류기에 가장 적합한 입력 기능을 파악하는 데 이미 사용중인 컬렉션이 있어야하기 때문입니다.) 나는 각각에 대해 대규모 최적화를 수행 한 실험을 한동안 거쳤습니다. 간단한 텍스트 분류 작업을위한 이러한 매개 변수는 각 커널이 합리적으로 잘 수행되는 것처럼 보이지만 서로 다른 구성에서 수행되었습니다. 내 결과를 정확하게 기억하면 sigmoid가 가장 잘 수행되었지만 매우 구체적인 매개 변수 조정에서 수행되었습니다.