«text-mining» 태그된 질문

패턴을 인식하여 텍스트 형식의 데이터에서 정보를 추출하는 것과 관련된 데이터 마이닝의 하위 집합을 나타냅니다. 텍스트 마이닝의 목표는 종종 주어진 문서를 자동으로 여러 범주 중 하나로 분류하고이 성능을 동적으로 개선하여 기계 학습의 예가되는 것입니다. 이러한 유형의 텍스트 마이닝의 한 예는 전자 메일에 사용되는 스팸 필터입니다.

1
영어 문장의 복잡성을 결정하는 방법?
사람들이 제 2 언어로 영어를 배우도록 돕기 위해 앱을 개발 중입니다. 추가 문맥을 제공함으로써 문장이 언어를 배우는 데 도움이된다는 것을 확인했습니다. 나는 60 명의 학생들로 구성된 작은 교실에서 작은 연구를 수행함으로써 그렇게했습니다. 다양한 영어 단어 (Barrons'800 단어 및 1000 개의 가장 일반적인 영어 단어 포함)에 대해 Wikipedia에서 수십만 문장을 채굴했습니다. …

1
word2vec에는 얼마나 많은 교육 데이터가 필요합니까?
다른 출처에서 언급 한 동일한 단어의 차이점을 비교하고 싶습니다. 즉, "민주주의"와 같이 잘못 정의 된 단어의 사용에서 저자가 어떻게 다른가. 간단한 계획은 "민주주의"라는 용어를 평문으로 언급하는 책을 가져 가라 각각의 책에서 교체 democracy로democracy_%AuthorName% word2vec이 책 에서 모델 훈련 사이의 거리를 계산 democracy_AuthorA, democracy_AuthorB및 기타 레이블이 재 지정은 "민주주의"의 언급 따라서 …

2
주어진 단어를 이름, 휴대폰 번호, 주소, 이메일, 주, 카운티, 도시 등으로 분류하는 데 사용되는 기계 / 딥 러닝 / nlp 기술
단어 또는 문자열 집합을 스캔하고 기계 학습 또는 딥 러닝을 사용하여 이름, 휴대폰 번호, 주소, 도시, 주, 국가 및 기타 엔티티로 분류 할 수있는 지능형 모델을 생성하려고합니다. 나는 접근법을 찾았지만 불행히도 취할 접근법을 찾지 못했습니다. 나는 끈이 이름인지 도시인지를 예측하기 위해 bag of words 모델과 gloved word embedding을 사용해 보았습니다. …

4
텍스트 분류기 교육 데이터 세트 제안
텍스트 분류기를 훈련시키기 위해 어떤 무료 데이터 집합을 사용할 수 있습니까? Google은 사용자에게 가장 관련성 높은 콘텐츠를 추천하여 사용자 참여를 향상 시키려고 노력하고 있으므로 미리 정의 된 단어 모음을 기반으로 콘텐츠를 분류하는 경우 이미 분류 된 임의의 게시물 수에 대한 피드백을 통해 콘텐츠를 참여시키는 것이 좋습니다. 전에. 이 정보를 사용하여 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.