텍스트의 통계 분류

32

저는 통계적 배경이없는 프로그래머이며 현재 사전 정의 된 범주로 분류 할 다양한 문서에 대해 다른 분류 방법을보고 있습니다. kNN, SVM 및 NN에 대해 읽었습니다. 그러나 시작하는 데 문제가 있습니다. 어떤 자료를 추천하십니까? 나는 단일 변수와 다중 변수 미적분학을 잘 알고 있으므로 수학은 충분히 강해야합니다. 또한 Neural Networks에 대한 주교의 책을 소유하고 있지만 소개로서 약간 조밀 한 것으로 입증되었습니다.

classification information-retrieval text-mining

— 에밀 H
소스

19

이 책을 추천합니다-아마존에서도 높은 평가를 받았습니다 :

Weiss의 "텍스트 마이닝"

Konchady의 "텍스트 마이닝 응용 프로그램 프로그래밍"

소프트웨어의 경우 무료 및 오픈 소스 인 RapidMiner (텍스트 플러그인 포함)를 권장합니다.

이것은 "텍스트 마이닝 프로세스"입니다.

문서 수집 (보통 웹 크롤링)
- [너무 큰 경우 샘플]
- 타임 스탬프
- 마크 업 제거
토큰 화 : 문자, 단어, n- 그램 또는 슬라이딩 윈도우로 나누기
형태소 분석 (일명 lemmatization)
- [동의어 포함]
- 포터 또는 눈송이 알고리즘 대명사 참조 및 기사는 일반적으로 나쁜 예측 변수 임
불용어를 제거
기능 벡터화
- 이진 (나타나지 않음)
- 단어 수
- 상대 주파수 : tf-idf
- 정보 게인, 카이 스퀘어
- [최소값 포함]
가중치
- 문서 상단의 가중치 단어가 더 높습니까?

그런 다음 분류 작업을 시작할 수 있습니다. 적절한 경우 kNN, SVM 또는 Naive Bayes.

여기 내 일련의 텍스트 마이닝 비디오를 볼 수 있습니다

— 닐 맥기 건
소스

이것은 좋은 답변입니다! 나는 당신의 책 제안을 살펴볼 것이며, 당신의 과정에 대한 설명 또한 훌륭합니다. 특히 기능 벡터화에 대한 제안이 마음에 듭니다.

— Emil H

(누군가 벡터화 부분에 대해 더 자세히 설명하고 싶으면 좋을 것이다.)

— Emil H

11

언급 한 주제를 다루는 훌륭한 입문 텍스트는 정보 검색 소개 이며 온라인에서 무료로 제공됩니다.

정보 검색 소개

— 파비안 스티 그
소스

어제 직장에서 실제로 스캔했습니다. 흥미로운 내용입니다-재료를 흡수하는 데 더 많은 시간이 있었으면 좋겠지 만 필요한 것을 얻었고 계속 나아가 야했습니다.

— 토마스 오웬스

동의했다, 그것은 훌륭한 책이다. 그것은 구글이 어떻게 작동하는지 거의 설명합니다 :)

— Neil McGuigan

5

신경망은 많은 문서에서 느려질 수 있습니다 (이것은 현재는 거의 쓸모가 없습니다).
또한 분류 자 중에서 임의 포리스트를 확인할 수도 있습니다. 매우 빠르며 확장 성이 뛰어나고 복잡한 튜닝이 필요하지 않습니다.

랜덤 포레스트 +1 과적 합하지 않기 때문에 1 등급을 시험해 볼 수있는 좋은 분류 기준입니다.

— Zach

4

프로그래밍 측면에서 오는 경우 한 가지 옵션은 Python에 NLTK ( Natural Language Toolkit )를 사용하는 것 입니다. 무료로 제공 되는 O'Reilly 책이 있습니다.이 책 은 무엇보다 문서 분류기를 작성하는 데 대한 덜 조밀하고 실용적인 소개 일 수 있습니다.

통계 측면에서 강화하고 싶다면 Roger Levy의 저서 인 언어 연구의 확률 모델 (Probabilistic Models in Study of Language )은 이해하기 쉽지 않을 것입니다. 통계적 NLP 기술로 시작하는 cogsci / compsci 대학원생을 위해 작성되었습니다.

— ars
소스

3

먼저 Manning과 Schütze 의 통계 자연 언어 처리의 기초 책을 추천합니다 .

내가 사용하는 방법은 단어 빈도 분포와 ngram 언어 모델입니다. 첫 번째는 주제를 분류하고 주제가 구체적이고 전문가 (키워드 사용) 인 경우 매우 효과적입니다. Ngram 모델링은 작문 스타일 등을 분류 할 때 가장 좋은 방법입니다.

— 피터 스밋
소스

0

Naive Bayes는 일반적으로 텍스트 분류의 시작점입니다. 다음은 Dobbs 의 기사 를 구현하는 방법에 대한 기사 입니다. SpamAssassin과 POPFile은 텍스트 분류를 효율적으로 처리하고 병렬 처리하기 때문에 텍스트 분류의 끝이기도합니다.

— 야로슬라프 불라 토프
소스