«natural-language» 태그된 질문

자연어 처리는 언어 처리, 인공 지능, 기계 학습 및 통계에서 인간 언어 처리 및 이해를 목표로하는 기술 세트입니다.


1
희소성에 대한이 해석이 정확합니까?
패키지 의 removeSparseTerms기능 에 대한 문서에 따르면 tm, 이것은 희소성이 수반하는 것입니다. A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse …

1
상호 배타적이지 않은 카테고리를 분류 할 수있는 딥 러닝 모델
예 : 직업 설명에 "영국의 Java Senior Engineer"문장이 있습니다. 나는 2 개 종류로 예측하는 깊은 학습 모델을 사용하려면 : English 와 IT jobs. 기존 분류 모델을 사용하는 경우 softmax마지막 레이어에서 함수가있는 레이블 하나만 예측할 수 있습니다 . 따라서 두 모델 신경망을 사용하여 두 범주 모두에서 "예"/ "아니오"를 예측할 수 있지만 …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
왜 역 문서 빈도로 하나를 추가해야합니까?
내 교과서에는 idf가 되어 있습니다.log(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) NNN : 문서 수 ntntn_t : 용어 포함하는 문서 수ttt Wikipedia는이 수식을 실제 의 부드러운 버전으로 나열합니다 . 내가 이해하는 것 : ~ 이르기까지 직관적으로 보입니다. 그러나 는 에서 로 너무 이상해 보입니다 ... 언어 모델링에서 스무딩에 대해 조금 알고 있지만 분자에 무언가를 추가 할 …

1
LSI의 맥락에서 특이 값 분해 이해
내 질문은 일반적으로 SVD (Singular Value Decomposition), 특히 LSI (Latent Semantic Indexing)에 관한 것입니다. 예 를 들어, 7 개의 문서에 대해 5 개의 단어 빈도를 포함하는 가 있습니다.ㅏw o r d× do c u m e n tAword×document A_{word \times document} A = matrix(data=c(2,0,8,6,0,3,1, 1,6,0,1,7,0,1, 5,0,7,4,0,5,6, 7,0,8,5,0,8,5, 0,10,0,0,7,0,0), ncol=7, byrow=TRUE) …

1
계량 경제학에 텍스트 마이닝 / 자연어 처리 도구 사용
이 질문이 여기에 완전히 적합한 지 잘 모르겠습니다. 그렇지 않은 경우 삭제하십시오. 저는 경제학을 전공하는 대학원생입니다. 사회 보험 문제를 조사하는 프로젝트의 경우, 자격 평가를 다루는 수많은 행정 사건 보고서 (> 200k)에 접근 할 수 있습니다. 이러한 보고서는 개별 관리 정보에 연결될 수 있습니다. 양적 분석에 사용할 수있는 보고서에서 grep/ awk등을 …

1
문서 요약에서의 로그 우도 비율
나는 처음에 이것을 스택 오버플로로 요청 했고이 사이트를 참조 했으므로 다음은 간다. 감독되지 않은 내용 선택 / 추출 기반 문서 요약 방법을 구현하고 있으며 교과서에서 "로그 가능성 비율"이라고 부르는 내용이 혼동됩니다. 이 책 음성 및 언어 처리 Jurafsky 마틴 짧게하여 같은 그것을 설명합니다 : 일반적으로 lambda (w)라고하는 단어의 LLR은 두 …

1
Naive Bayes와 Recurrent Neural Network (LSTM)의 차이점
텍스트에 대한 감정 분석을 수행하고 여러 기사를 살펴보고 일부는 "Naive Bayes"를 사용 하고 다른 일부는 "Recurrent Neural Network (LSTM)"입니다 . 반면에 감정 분석을위한 Python 라이브러리를 보았습니다. NLTK입니다. 그것은 사용 "나이브 베이 즈 ' 깡통 사람이 두 가지를 사용 사이의 차이점은 무엇입니까 설명? 나는 또한이 게시물을 겪었지만 두 가지에 대해서는 명확하지 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.