답변:
확인 http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf 맵리 듀스와 데이터 집약적 인 텍스트 처리를 -이 책은 상당히 학술하지만 표지를 일반적으로 사용되는 텍스트 처리 기술의 번호와 방법은이 parrallised 할 수있다 map reduce를 사용하여 큰 데이터 세트에
www.rtexttools.com 이것은 우수한 R 패키지로 텍스트 분석에 광범위한 분류 알고리즘 (일부 앙상블 방법 포함)을 적용하는 데 도움이됩니다. 과
최근이 분야에서 네 권의 책을 읽었습니다.
Feldman, R. 및 James Sanger, J. (2006). 텍스트 마이닝 핸드북 : 구조화되지 않은 데이터 분석의 고급 접근. 케임브리지 대학 출판부.
실제 사례, 소프트웨어 및 응용 텍스트 마이닝에 중점을 둡니다. 실제 텍스트 마이닝 사용법에 대한 여러 가지 예를 제공합니다. 텍스트 마이닝 도구의 상용 응용 프로그램에 대해 읽으려면 관심이있을 수 있습니다.
Srivastava, AN 및 Sahami, M. (2009). 텍스트 마이닝 : 분류, 클러스터링 및 응용 프로그램. 채프먼 & 홀 / CRC.
다양한 텍스트 마이닝 도구의 사용 예제로 사용되는 일련의 연구 논문입니다. 입문 시험에 비해 너무 집중되어 있습니다.
Weiss, SM, Indurkhya, N., Zhang, T. 및 Damerau, F. (2005). 텍스트 마이닝 : 비정형 정보 분석을위한 예측 방법. 봄 병아리.
몇 가지 일반적인 문제를 설명하는 매우 기초적인 텍스트입니다.
매닝, C. (1999). 통계 자연 언어 처리의 기초. MIT Press.
이 주제에 대해 이미 읽은 최고의 책입니다. 잘 쓰여지고 명확하며 이론에 더 깊이 들어가지만 실제로는 친숙합니다. 일반적인 소개로 시작하지만 가장 일반적으로 사용되는 방법 및 알고리즘을 검토합니다. 한 권의 책만 선택해야한다면이 책을 추천합니다.
또한 R ( tm 라이브러리) 또는 Python ( nltk 라이브러리) 사용에 중점을 둔 자연어 처리 및 텍스트 마이닝에 대한 여러 책을 쉽게 찾을 수 있습니다 .
이것은 정확히 당신이 찾고있는 것에 맞지 않을 수도 있지만 Jeffrey Friedl의 정규 표현식 마스터 링은 정규 표현식 을 사용하여 텍스트를 구문 분석하는 방법을 배우는 훌륭한 소스입니다. 그는 모델링 기법에 대해서는 다루지 않지만 정규식을 적용 할 수있는 능력을 갖추고있어 다양한 표준 모델링 방식을 적용 할 수 있습니다.
아이디어를 위해 계속해서 또 다른 책은 Sholom Weiss의 Text Mining : Predictive Methods 입니다. 그것은 텍스트 마이닝이 때로는 다른 것들을 시도하는 것에 관한 것입니다. 글로벌 대 로컬 사전, 유지해야 할 기능 수 등.이 책은 좋은 아이디어 생성기라고 생각합니다. 또한 사례 연구가 있습니다.
http://www.nltk.org/의 NLP 는 무료이며 파이썬에서 NLTK와 커플 링하는 것이 좋습니다 . 모두 제일 좋다