답변:
이 책을 추천합니다-아마존에서도 높은 평가를 받았습니다 :
Weiss의 "텍스트 마이닝"
Konchady의 "텍스트 마이닝 응용 프로그램 프로그래밍"
소프트웨어의 경우 무료 및 오픈 소스 인 RapidMiner (텍스트 플러그인 포함)를 권장합니다.
이것은 "텍스트 마이닝 프로세스"입니다.
그런 다음 분류 작업을 시작할 수 있습니다. 적절한 경우 kNN, SVM 또는 Naive Bayes.
여기 내 일련의 텍스트 마이닝 비디오를 볼 수 있습니다
언급 한 주제를 다루는 훌륭한 입문 텍스트는 정보 검색 소개 이며 온라인에서 무료로 제공됩니다.
신경망은 많은 문서에서 느려질 수 있습니다 (이것은 현재는 거의 쓸모가 없습니다).
또한 분류 자 중에서 임의 포리스트를 확인할 수도 있습니다. 매우 빠르며 확장 성이 뛰어나고 복잡한 튜닝이 필요하지 않습니다.
프로그래밍 측면에서 오는 경우 한 가지 옵션은 Python에 NLTK ( Natural Language Toolkit )를 사용하는 것 입니다. 무료로 제공 되는 O'Reilly 책이 있습니다.이 책 은 무엇보다 문서 분류기를 작성하는 데 대한 덜 조밀하고 실용적인 소개 일 수 있습니다.
통계 측면에서 강화하고 싶다면 Roger Levy의 저서 인 언어 연구의 확률 모델 (Probabilistic Models in Study of Language )은 이해하기 쉽지 않을 것입니다. 통계적 NLP 기술로 시작하는 cogsci / compsci 대학원생을 위해 작성되었습니다.
먼저 Manning과 Schütze 의 통계 자연 언어 처리의 기초 책을 추천합니다 .
내가 사용하는 방법은 단어 빈도 분포와 ngram 언어 모델입니다. 첫 번째는 주제를 분류하고 주제가 구체적이고 전문가 (키워드 사용) 인 경우 매우 효과적입니다. Ngram 모델링은 작문 스타일 등을 분류 할 때 가장 좋은 방법입니다.