텍스트의 통계 분류


32

저는 통계적 배경이없는 프로그래머이며 현재 사전 정의 된 범주로 분류 할 다양한 문서에 대해 다른 분류 방법을보고 있습니다. kNN, SVM 및 NN에 대해 읽었습니다. 그러나 시작하는 데 문제가 있습니다. 어떤 자료를 추천하십니까? 나는 단일 변수와 다중 변수 미적분학을 잘 알고 있으므로 수학은 충분히 강해야합니다. 또한 Neural Networks에 대한 주교의 책을 소유하고 있지만 소개로서 약간 조밀 한 것으로 입증되었습니다.

답변:


19

이 책을 추천합니다-아마존에서도 높은 평가를 받았습니다 :

Weiss의 "텍스트 마이닝"

Konchady의 "텍스트 마이닝 응용 프로그램 프로그래밍"

소프트웨어의 경우 무료 및 오픈 소스 인 RapidMiner (텍스트 플러그인 포함)를 권장합니다.

이것은 "텍스트 마이닝 프로세스"입니다.

  • 문서 수집 (보통 웹 크롤링)
    • [너무 큰 경우 샘플]
    • 타임 스탬프
    • 마크 업 제거
  • 토큰 화 : 문자, 단어, n- 그램 또는 슬라이딩 윈도우로 나누기
  • 형태소 분석 (일명 lemmatization)
    • [동의어 포함]
    • 포터 또는 눈송이 알고리즘 대명사 참조 및 기사는 일반적으로 나쁜 예측 변수 임
  • 불용어를 제거
  • 기능 벡터화
    • 이진 (나타나지 않음)
    • 단어 수
    • 상대 주파수 : tf-idf
    • 정보 게인, 카이 스퀘어
    • [최소값 포함]
  • 가중치
    • 문서 상단의 가중치 단어가 더 높습니까?

그런 다음 분류 작업을 시작할 수 있습니다. 적절한 경우 kNN, SVM 또는 Naive Bayes.

여기 내 일련의 텍스트 마이닝 비디오를 볼 수 있습니다


이것은 좋은 답변입니다! 나는 당신의 책 제안을 살펴볼 것이며, 당신의 과정에 대한 설명 또한 훌륭합니다. 특히 기능 벡터화에 대한 제안이 마음에 듭니다.
Emil H

(누군가 벡터화 부분에 대해 더 자세히 설명하고 싶으면 좋을 것이다.)
Emil H

11

언급 한 주제를 다루는 훌륭한 입문 텍스트는 정보 검색 소개 이며 온라인에서 무료로 제공됩니다.

정보 검색 소개


어제 직장에서 실제로 스캔했습니다. 흥미로운 내용입니다-재료를 흡수하는 데 더 많은 시간이 있었으면 좋겠지 만 필요한 것을 얻었고 계속 나아가 야했습니다.
토마스 오웬스

동의했다, 그것은 훌륭한 책이다. 그것은 구글이 어떻게 작동하는지 거의 설명합니다 :)
Neil McGuigan

5

신경망은 많은 문서에서 느려질 수 있습니다 (이것은 현재는 거의 쓸모가 없습니다).
또한 분류 자 ​​중에서 임의 포리스트를 확인할 수도 있습니다. 매우 빠르며 확장 성이 뛰어나고 복잡한 튜닝이 필요하지 않습니다.


랜덤 포레스트 +1 과적 합하지 않기 때문에 1 등급을 시험해 볼 수있는 좋은 분류 기준입니다.
Zach

4

프로그래밍 측면에서 오는 경우 한 가지 옵션은 Python에 NLTK ( Natural Language Toolkit )를 사용하는 것 입니다. 무료로 제공 되는 O'Reilly 책이 있습니다.이 책 은 무엇보다 문서 분류기를 작성하는 데 대한 덜 조밀하고 실용적인 소개 일 수 있습니다.

통계 측면에서 강화하고 싶다면 Roger Levy의 저서 인 언어 연구의 확률 모델 (Probabilistic Models in Study of Language )은 이해하기 쉽지 않을 것입니다. 통계적 NLP 기술로 시작하는 cogsci / compsci 대학원생을 위해 작성되었습니다.


3

먼저 Manning과 Schütze 의 통계 자연 언어 처리의 기초 책을 추천합니다 .

내가 사용하는 방법은 단어 빈도 분포와 ngram 언어 모델입니다. 첫 번째는 주제를 분류하고 주제가 구체적이고 전문가 (키워드 사용) 인 경우 매우 효과적입니다. Ngram 모델링은 작문 스타일 등을 분류 할 때 가장 좋은 방법입니다.


0

Naive Bayes는 일반적으로 텍스트 분류의 시작점입니다. 다음은 Dobbs 의 기사 를 구현하는 방법에 대한 기사 입니다. SpamAssassin과 POPFile은 텍스트 분류를 효율적으로 처리하고 병렬 처리하기 때문에 텍스트 분류의 끝이기도합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.