내가 다루는 문제는 짧은 텍스트를 여러 클래스로 분류하는 것입니다. 내 현재 접근 방식은 tf-idf 가중 항 주파수를 사용하고 간단한 선형 분류기 (로지스틱 회귀)를 배우는 것입니다. 이것은 합리적으로 잘 작동합니다 (테스트 세트에서 약 90 % 매크로 F-1, 훈련 세트에서 거의 100 %). 큰 문제는 보이지 않는 단어 / n- 그램입니다.
분포 특징을 사용하여 계산 된 고정 크기의 벡터 (word2vec로 계산) 또는 예제의 다른 범주 기능을 추가하여 분류기를 개선하려고합니다. 내 생각은 단어 모음에서 스파 스 입력 기능에 기능을 추가하는 것이 었습니다. 그러나 이로 인해 테스트 및 교육 세트에서 성능이 저하됩니다. 추가 기능 자체는 테스트 세트에서 약 80 %의 F-1을 제공하므로 쓰레기가 아닙니다. 기능을 확장해도 도움이되지 않았습니다. 나의 현재 생각은 이러한 종류의 기능이 (단순한) 단어 기능과 잘 섞이지 않는다는 것입니다.
문제는 추가 기능이 추가 정보를 제공한다고 가정하면이를 통합하는 가장 좋은 방법은 무엇입니까? 별도의 분류자를 훈련시키고 어떤 종류의 앙상블 작업으로 결합 할 수 있습니까? 고려해야 할 더 복잡한 다른 모델이 있습니까?