«text-mining» 태그된 질문

패턴을 인식하여 텍스트 형식의 데이터에서 정보를 추출하는 것과 관련된 데이터 마이닝의 하위 집합을 나타냅니다. 텍스트 마이닝의 목표는 종종 주어진 문서를 자동으로 여러 범주 중 하나로 분류하고이 성능을 동적으로 개선하여 기계 학습의 예가되는 것입니다. 이러한 유형의 텍스트 마이닝의 한 예는 전자 메일에 사용되는 스팸 필터입니다.

2
왜 단어 대신 텍스트 언어 식별에 n-gram이 사용됩니까?
널리 사용되는 두 가지 언어 식별 라이브러리 인 C ++ 용 Compact Language Detector 2와 Java 용 언어 탐지기 에서 둘 다 (문자 기반) n-gram을 사용하여 텍스트 기능을 추출했습니다. 단어 백 (한 단어 / 사전)이 사용되지 않는 이유는 무엇입니까? 단어 백과 n- 그램의 장점과 단점은 무엇입니까? 또한 텍스트 분류에서 n-grams …



5
텍스트 마이닝에 관한 좋은 책?
안녕하세요. 사례 연구를 통해 텍스트 마이닝 및 분류에 관한 좋은 책이 있는지 알고 싶었습니다. 그렇지 않다면 대중이 접근 할 수있는 서류 / 저널이있을 것입니다. 그들이 R로 그들의 예를 더 잘 설명한다면. 나는 단계별 매뉴얼을 찾지 않고 다양한 클래스의 문제에 대한 다양한 텍스트 마이닝 접근법의 장단점을 보여주는 것을 찾고 있습니다.

1
증분 IDF (역 문서 빈도)
텍스트 마이닝 응용 프로그램에서 간단한 접근 방법 중 하나는 휴리스틱을 사용하여 문서의 간결한 스파 스 표현으로 벡터를 만드는 것입니다. 에 전체 코퍼스가 필요하기 때문에 전체 코퍼스가 선험적으로 알려진 배치 설정에 적합 합니다.tf−idftf−idftf-idfidfidfidf idf(t)=log|D||{d:t∈d}|idf(t)=log⁡|D||{d:t∈d}| \mathrm{idf}(t) = \log \frac{|D|}{|\{d: t \in d\}|} 여기서 는 용어, 는 문서, 는 문서 모음, (표시되지 않음)는 …

1
TF-IDF 로그에서 로그 사용 이해
나는 읽고 있었다: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition 그러나 수식이 왜 원래대로 구성되었는지 정확히 이해할 수없는 것 같습니다. 내가 이해하는 것 : iDF는 어떤 수준에서 용어 S가 각 문서에 나타나는 빈도를 측정해야하며, 용어가 더 자주 나타날수록 가치가 감소합니다. 그 관점에서 나는 D F( S) = # 문서의# S를 포함하는 서류나는디에프(에스)=# 문서# S가 포함 된 …

3
bigram (N-gram) 모델을 사용하여 텍스트 문서의 피처 벡터 작성
텍스트 마이닝을위한 기능 구성에 대한 전통적인 접근 방식은 단어 별 접근 방식이며, tf-idf를 사용하여 주어진 텍스트 문서를 특성화하는 기능 벡터를 설정하여 향상시킬 수 있습니다. 현재 피처 벡터를 구축하기 위해 Bi-gram 언어 모델 또는 (N-gram)을 사용하려고하는데 어떻게 해야할지 모르겠습니다. 단어 대신 백 그램 단위로 빈도 수를 계산하고 tf-idf 가중치 구성표를 사용하여 …

1
희소성에 대한이 해석이 정확합니까?
패키지 의 removeSparseTerms기능 에 대한 문서에 따르면 tm, 이것은 희소성이 수반하는 것입니다. A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse …

1
왜 역 문서 빈도로 하나를 추가해야합니까?
내 교과서에는 idf가 되어 있습니다.log(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) NNN : 문서 수 ntntn_t : 용어 포함하는 문서 수ttt Wikipedia는이 수식을 실제 의 부드러운 버전으로 나열합니다 . 내가 이해하는 것 : ~ 이르기까지 직관적으로 보입니다. 그러나 는 에서 로 너무 이상해 보입니다 ... 언어 모델링에서 스무딩에 대해 조금 알고 있지만 분자에 무언가를 추가 할 …


1
계량 경제학에 텍스트 마이닝 / 자연어 처리 도구 사용
이 질문이 여기에 완전히 적합한 지 잘 모르겠습니다. 그렇지 않은 경우 삭제하십시오. 저는 경제학을 전공하는 대학원생입니다. 사회 보험 문제를 조사하는 프로젝트의 경우, 자격 평가를 다루는 수많은 행정 사건 보고서 (> 200k)에 접근 할 수 있습니다. 이러한 보고서는 개별 관리 정보에 연결될 수 있습니다. 양적 분석에 사용할 수있는 보고서에서 grep/ awk등을 …

1
관찰 된 이벤트와 예상 된 이벤트를 비교하는 방법은 무엇입니까?
4 가지 가능한 이벤트의 주파수 샘플이 하나 있다고 가정합니다. Event1 - 5 E2 - 1 E3 - 0 E4 - 12 내 이벤트의 예상 확률이 있습니다. p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 내 네 가지 사건의 관측 빈도의 합으로 (18) 사건의 예상 빈도를 올바르게 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
감정 분석 이해 및 적용
방금 일부 문서 수집에 대한 감정 분석을 수행하는 프로젝트가 배정되었습니다. 인터넷 검색으로 많은 정서 관련 연구가 나타났습니다. 내 질문은 : 기계 학습 및 통계 분석 분야에서 감정 분석을위한 주요 방법 / 알고리즘은 무엇입니까? 잘 확립 된 결과가 있습니까? 감정 분석을 수행 할 수있는 기존 오픈 소스 소프트웨어가 있습니까?

4
2 X 3 테이블에서 다중 사후 카이-제곱 테스트를 수행하는 방법은 무엇입니까?
내 데이터 세트는 해안, 미드 채널 및 해양의 세 가지 사이트 유형에서 유기체의 총 사망률 또는 생존율로 구성됩니다. 아래 표의 숫자는 사이트 수를 나타냅니다. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100 % 사망률이 발생한 사이트 수가 사이트 유형에 따라 중요한지 알고 싶습니다. 2 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.