통계 및 빅 데이터 text-mining

2

널리 사용되는 두 가지 언어 식별 라이브러리 인 C ++ 용 Compact Language Detector 2와 Java 용 언어 탐지기 에서 둘 다 (문자 기반) n-gram을 사용하여 텍스트 기능을 추출했습니다. 단어 백 (한 단어 / 사전)이 사용되지 않는 이유는 무엇입니까? 단어 백과 n- 그램의 장점과 단점은 무엇입니까? 또한 텍스트 분류에서 n-grams …

12 machine-learning classification text-mining natural-language

7

R 용 텍스트 마이닝 패키지는 무엇이며 다른 오픈 소스 텍스트 마이닝 프로그램이 있습니까?

대량의 데이터에 사용할 수있는 R의 텍스트 마이닝 패키지를 추천 할 수 있습니까? 둘째, R의 텍스트 마이닝 패키지에 사용 가능한 GUI가 있습니까? 셋째, 사용하기 쉽고 직관적 인 또 다른 오픈 소스 텍스트 마이닝 프로그램이 있습니까?

12 r text-mining

2

단어 공간 대 벡터 공간 모델?

이 텍스트 표현 모델의 차이점은 무엇입니까 : 단어의 백과 벡터 공간 모델?

12 machine-learning text-mining

5

텍스트 마이닝에 관한 좋은 책?

안녕하세요. 사례 연구를 통해 텍스트 마이닝 및 분류에 관한 좋은 책이 있는지 알고 싶었습니다. 그렇지 않다면 대중이 접근 할 수있는 서류 / 저널이있을 것입니다. 그들이 R로 그들의 예를 더 잘 설명한다면. 나는 단계별 매뉴얼을 찾지 않고 다양한 클래스의 문제에 대한 다양한 텍스트 마이닝 접근법의 장단점을 보여주는 것을 찾고 있습니다.

11 references text-mining

1

증분 IDF (역 문서 빈도)

텍스트 마이닝 응용 프로그램에서 간단한 접근 방법 중 하나는 휴리스틱을 사용하여 문서의 간결한 스파 스 표현으로 벡터를 만드는 것입니다. 에 전체 코퍼스가 필요하기 때문에 전체 코퍼스가 선험적으로 알려진 배치 설정에 적합 합니다.tf−idftf−idftf-idfidfidfidf idf(t)=log|D||{d:t∈d}|idf(t)=log⁡|D||{d:t∈d}| \mathrm{idf}(t) = \log \frac{|D|}{|\{d: t \in d\}|} 여기서 는 용어, 는 문서, 는 문서 모음, (표시되지 않음)는 …

11 time-series text-mining

1

TF-IDF 로그에서 로그 사용 이해

나는 읽고 있었다: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition 그러나 수식이 왜 원래대로 구성되었는지 정확히 이해할 수없는 것 같습니다. 내가 이해하는 것 : iDF는 어떤 수준에서 용어 S가 각 문서에 나타나는 빈도를 측정해야하며, 용어가 더 자주 나타날수록 가치가 감소합니다. 그 관점에서 나는 D F( S) = # 문서의# S를 포함하는 서류나는디에프(에스)=# 문서# S가 포함 된 …

10 machine-learning clustering mathematical-statistics text-mining natural-language

3

bigram (N-gram) 모델을 사용하여 텍스트 문서의 피처 벡터 작성

텍스트 마이닝을위한 기능 구성에 대한 전통적인 접근 방식은 단어 별 접근 방식이며, tf-idf를 사용하여 주어진 텍스트 문서를 특성화하는 기능 벡터를 설정하여 향상시킬 수 있습니다. 현재 피처 벡터를 구축하기 위해 Bi-gram 언어 모델 또는 (N-gram)을 사용하려고하는데 어떻게 해야할지 모르겠습니다. 단어 대신 백 그램 단위로 빈도 수를 계산하고 tf-idf 가중치 구성표를 사용하여 …

10 machine-learning data-mining text-mining natural-language language-models

1

희소성에 대한이 해석이 정확합니까?

패키지 의 removeSparseTerms기능 에 대한 문서에 따르면 tm, 이것은 희소성이 수반하는 것입니다. A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse …

10 r text-mining natural-language

1

왜 역 문서 빈도로 하나를 추가해야합니까?

내 교과서에는 idf가 되어 있습니다.log(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) NNN : 문서 수 ntntn_t : 용어 포함하는 문서 수ttt Wikipedia는이 수식을 실제 의 부드러운 버전으로 나열합니다 . 내가 이해하는 것 : ~ 이르기까지 직관적으로 보입니다. 그러나 는 에서 로 너무 이상해 보입니다 ... 언어 모델링에서 스무딩에 대해 조금 알고 있지만 분자에 무언가를 추가 할 …

9 text-mining natural-language smoothing

2

R의 'tm'(텍스트 마이닝) 패키지에서 VectorSource 및 VCorpus 란 무엇입니까

tm 패키지에 정확히 VectorSource와 VCorpus가 무엇인지 확실하지 않습니다. 이것에 대한 문서가 명확하지 않습니다. 누구든지 간단한 용어로 나를 이해할 수 있습니까?

9 r text-mining

1

계량 경제학에 텍스트 마이닝 / 자연어 처리 도구 사용

이 질문이 여기에 완전히 적합한 지 잘 모르겠습니다. 그렇지 않은 경우 삭제하십시오. 저는 경제학을 전공하는 대학원생입니다. 사회 보험 문제를 조사하는 프로젝트의 경우, 자격 평가를 다루는 수많은 행정 사건 보고서 (> 200k)에 접근 할 수 있습니다. 이러한 보고서는 개별 관리 정보에 연결될 수 있습니다. 양적 분석에 사용할 수있는 보고서에서 grep/ awk등을 …

9 machine-learning data-mining econometrics text-mining natural-language

1

관찰 된 이벤트와 예상 된 이벤트를 비교하는 방법은 무엇입니까?

4 가지 가능한 이벤트의 주파수 샘플이 하나 있다고 가정합니다. Event1 - 5 E2 - 1 E3 - 0 E4 - 12 내 이벤트의 예상 확률이 있습니다. p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 내 네 가지 사건의 관측 빈도의 합으로 (18) 사건의 예상 빈도를 올바르게 …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

감정 분석 이해 및 적용

방금 일부 문서 수집에 대한 감정 분석을 수행하는 프로젝트가 배정되었습니다. 인터넷 검색으로 많은 정서 관련 연구가 나타났습니다. 내 질문은 : 기계 학습 및 통계 분석 분야에서 감정 분석을위한 주요 방법 / 알고리즘은 무엇입니까? 잘 확립 된 결과가 있습니까? 감정 분석을 수행 할 수있는 기존 오픈 소스 소프트웨어가 있습니까?

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

4

2 X 3 테이블에서 다중 사후 카이-제곱 테스트를 수행하는 방법은 무엇입니까?

내 데이터 세트는 해안, 미드 채널 및 해양의 세 가지 사이트 유형에서 유기체의 총 사망률 또는 생존율로 구성됩니다. 아래 표의 숫자는 사이트 수를 나타냅니다. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100 % 사망률이 발생한 사이트 수가 사이트 유형에 따라 중요한지 알고 싶습니다. 2 …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

«text-mining» 태그된 질문