«text-mining» 태그된 질문

패턴을 인식하여 텍스트 형식의 데이터에서 정보를 추출하는 것과 관련된 데이터 마이닝의 하위 집합을 나타냅니다. 텍스트 마이닝의 목표는 종종 주어진 문서를 자동으로 여러 범주 중 하나로 분류하고이 성능을 동적으로 개선하여 기계 학습의 예가되는 것입니다. 이러한 유형의 텍스트 마이닝의 한 예는 전자 메일에 사용되는 스팸 필터입니다.

3
예 : 이진 결과에 glmnet을 사용하는 LASSO 회귀
관심있는 결과가 이분법 인 LASSO Regressionglmnet 과 함께 사용하기 시작했습니다 . 아래에 작은 모의 데이터 프레임을 만들었습니다. age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
Keras 'Embedding'레이어는 어떻게 작동합니까?
Keras 라이브러리에서 'Embedding'레이어의 작동을 이해해야합니다. 파이썬에서 다음 코드를 실행합니다. import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) 다음과 같은 출력을 제공합니다 input_array = [[4 1 3 3 3]] output_array = …

6
두 벡터의 문자열 (R)을 유사하게 일치시키는 방법은 무엇입니까?
이것이 어떻게 표시되어야하는지 잘 모르겠으므로 더 나은 용어를 알고 있다면 수정 해주세요. 두 가지 목록이 있습니다. 55 개 항목 중 하나 (예 : 문자열 벡터), 92 개 중 다른 항목. 항목 이름은 비슷하지만 동일하지는 않습니다. 나는 최선의 후보를 찾고자 들 55 목록의 항목 (I는 다음을 통해 이동하고 올바른 피팅을 선택할 …
36 r  text-mining 

6
텍스트의 통계 분류
저는 통계적 배경이없는 프로그래머이며 현재 사전 정의 된 범주로 분류 할 다양한 문서에 대해 다른 분류 방법을보고 있습니다. kNN, SVM 및 NN에 대해 읽었습니다. 그러나 시작하는 데 문제가 있습니다. 어떤 자료를 추천하십니까? 나는 단일 변수와 다중 변수 미적분학을 잘 알고 있으므로 수학은 충분히 강해야합니다. 또한 Neural Networks에 대한 주교의 책을 …

4
문자열 파싱을위한 머신 러닝 기술?
많은 주소 문자열이 있습니다. 1600 Pennsylvania Ave, Washington, DC 20500 USA 구성 요소로 구문 분석하고 싶습니다. street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA 그러나 물론 데이터는 더러워집니다. 여러 언어로 작성된 많은 국가에서 다른 방식으로 작성되었으며 철자가 틀리거나 조각이 없거나 여분의 정크가 있습니다. 현재 우리의 접근 …

3
R은 텍스트 분류 작업으로 얼마나 잘 확장됩니까? [닫은]
R로 속도를 높이려고합니다. 결국 텍스트 분류를 위해 R 라이브러리를 사용하고 싶습니다. 텍스트 분류를 할 때 R의 확장 성과 관련하여 사람들의 경험이 무엇인지 궁금합니다. 고차원 데이터 (~ 300k 크기)에 빠질 수 있습니다. 특히 분류 알고리즘으로 SVM과 Random Forest를 사용하고 있습니다. R 라이브러리가 문제 크기에 맞게 확장됩니까? 감사. 편집 1 : 명확히하기 …

2
순진 베이와 다항식 순진 베이의 차이점
전에 Naive Bayes 분류기를 다루었습니다 . 최근 에 Multinomial Naive Bayes 에 대해 읽었습니다 . 또한 사후 확률 = (이전 * 가능성) / (증거) . Naive Bayes와 Multinomial Naive Bayes 사이에서 찾은 유일한 주요 차이점 (이 분류자를 프로그래밍하는 동안)은 나이브 베이 즈 다항식은 우도로 계산 단어 / 토큰 카운트 (랜덤 …

4
주제 모델링을 수행하기위한 R 패키지 / LDA :`topicmodels` 및`lda` [폐쇄]
두 개의 R 패키지 만 Latent Dirichlet Allocation 을 수행 할 수있는 것 같습니다 . 하나는 ldaJonathan Chang이 저술 한 것입니다 . 다른 하나는 topicmodelsBettina Grün과 Kurt Hornik 이 저술했습니다. 성능, 구현 세부 사항 및 확장 성 측면에서이 두 패키지의 차이점은 무엇입니까?

1
교차 유효성 검사가 유효성 검사 세트를 대신 할 수 있습니까?
텍스트 분류에는 약 800 샘플로 훈련 세트와 약 150 샘플로 시험 세트가 있습니다. 테스트 세트는 사용 된 적이 없으며 끝날 때까지 사용 대기 중입니다. 분류기 및 기능을 조정하고 조정하는 동안 10 배 교차 검증과 함께 800 샘플 교육 세트를 사용하고 있습니다. 이것은 별도의 유효성 검사 세트가 없지만 각각 10 배가 …

7
Naive Bayes에서 테스트 세트에 알 수없는 단어가있을 때 Laplace 스무딩을 방해하는 이유는 무엇입니까?
나는 오늘 Naive Bayes Classification을 읽고있었습니다. 매개 변수 추정 이라는 제목 아래 에 1 스무딩을 추가했습니다 . 하자 ccc (같은 양 또는 음 등) 클래스를 참조하고,하자 www 토큰 또는 단어를 참조하십시오. P(w|c)P(w|c)P(w|c) 의 최대 우도 추정값 은 c o u n t ( w , c )c o u n …

3
주제 모델 및 단어 동시 발생 방법
LDA와 같은 인기있는 주제 모델은 일반적으로 같은 주제 (클러스터)로 함께 발생하는 단어를 묶습니다. 이러한 주제 모델과 PMI와 같은 다른 간단한 동시 발생 기반 클러스터링 방식의 주요 차이점은 무엇입니까? (PMI는 Pointwise Mutual Information의 약자이며 주어진 단어와 함께 발생하는 단어를 식별하는 데 사용됩니다.)

2
텍스트 분류를위한 용어집 : 왜 TFIDF 대신 단어 빈도를 사용하지 않습니까?
텍스트 분류에 대한 일반적인 접근 방식은 분류기를 '단어 모음'에서 학습시키는 것입니다. 사용자는 텍스트를 분류하고 각 객체의 단어 빈도를 세고 그에 따라 트리밍 가능한 크기의 행렬을 유지하기위한 일종의 트리밍을 계산합니다. 종종 사용자는 TFIDF를 사용하여 기능 벡터를 구성하는 것을 봅니다. 다시 말해, 위에서 언급 한 텍스트 빈도는 말뭉치의 단어 빈도에 의해 가중됩니다. …

1
정서 분석에 단락 벡터를 사용한보고 된 최신 성능이 복제 되었습니까?
Le and Mikolov 의 ICML 2014 논문 " 문장 및 문서의 분산 표현 "의 결과에 깊은 인상을 받았습니다 . "문단 벡터"라고 부르는 기술은 word2vec 모델의 확장을 기반으로 임의로 긴 단락 / 문서의 감독되지 않은 표현을 학습합니다. 이 문서는이 기술을 사용하여 감정 분석에 대한 최신 성능을보고합니다. 나는 전통적인 단어 분류 표현의 …

3
반 감독 학습, 능동 학습 및 분류를위한 딥 러닝
모든 리소스가 업데이트 된 최종 편집 : 프로젝트의 경우 분류를 위해 기계 학습 알고리즘을 적용하고 있습니다. 도전 과제 : 레이블이 지정된 데이터와 레이블이없는 데이터가 훨씬 제한적입니다. 목표 : 반 감독 분류 적용 어떻게 든 반 감독 라벨링 프로세스 적용 (활성 학습이라고 함) EM, Transductive SVM 또는 S3VM (Semi Supervised SVM)을 …

2
자연어 처리가 기계 학습 도메인에 포함되지 않는 이유는 무엇입니까? [닫은]
현재로서는이 질문이 Q & A 형식에 적합하지 않습니다. 답변, 사실, 참고 자료 또는 전문 지식을 통해 답변이 뒷받침 될 것으로 예상되지만이 질문은 토론, 논쟁, 여론 조사 또는 광범위한 토론을 요구할 것입니다. 이 질문을 개선하고 다시 열 수 있다고 생각 되면 도움말 센터 를 방문하여 안내를 받으십시오 . 휴일 칠년 전에 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.