«information-retrieval» 태그된 질문

6
텍스트의 통계 분류
저는 통계적 배경이없는 프로그래머이며 현재 사전 정의 된 범주로 분류 할 다양한 문서에 대해 다른 분류 방법을보고 있습니다. kNN, SVM 및 NN에 대해 읽었습니다. 그러나 시작하는 데 문제가 있습니다. 어떤 자료를 추천하십니까? 나는 단일 변수와 다중 변수 미적분학을 잘 알고 있으므로 수학은 충분히 강해야합니다. 또한 Neural Networks에 대한 주교의 책을 …

2
문서 유사성 측정
문서를 군집화하려면 문서 쌍 간의 유사성을 측정하는 방법이 필요합니다. 두 가지 대안이 있습니다 : 코사인 유사성 -및 TF / IDF를 항의 가중치로 사용하여 문서를 항 벡터로 비교합니다 . f-divergence를 사용하여 각 문서 확률 분포를 비교하십시오 (예 : Kullback-Leibler divergence) 한 가지 방법을 다른 방법보다 선호하는 직관적 인 이유가 있습니까 (평균 …

4
PCA 공간에 새로운 벡터를 투영하는 방법?
주성분 분석 (PCA)을 수행 한 후 PCA 공간에 새 벡터를 투영하려고합니다 (즉, PCA 좌표계에서 해당 좌표를 찾습니다). 를 사용하여 R 언어로 PCA를 계산했습니다 prcomp. 이제 내 벡터에 PCA 회전 행렬을 곱할 수 있어야합니다. 이 매트릭스의 주요 구성 요소를 행 또는 열로 배열해야합니까?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
평균 평균 정밀도 vs 평균 역수
MAP을 사용하는 것이 적절한시기와 MRR을 사용해야하는시기를 이해하려고합니다. 이 프레젠테이션에서 MRR은 관련 결과 수가 5 개 미만일 때 가장 잘 활용되고 1 일 때 가장 잘 사용된다는 내용을 발견 했습니다. 다른 경우에는 MAP이 적합합니다. 두 가지 질문이 있습니다. 나는 이것이 왜 그런지 정말로 이해하지 못한다. 이 주장에 대한 인용 가능한 참고 …

1
LSA와 pLSA의 파렐
pLSA 의 원본 논문 에서 저자 인 Thomas Hoffman은 제가 논의하고자하는 pLSA와 LSA 데이터 구조 사이에 유사점을 두었습니다. 배경: 정보 검색에서 영감을 얻은 것은 NNN 서류 D={d1,d2,....,dN}D={d1,d2,....,dN}D = \lbrace d_1, d_2, ...., d_N \rbrace 그리고 어휘 MMM 자귀 Ω={ω1,ω2,...,ωM}Ω={ω1,ω2,...,ωM}\Omega = \lbrace \omega_1, \omega_2, ..., \omega_M \rbrace 코퍼스 XXX 로 나타낼 …

1
관찰 된 이벤트와 예상 된 이벤트를 비교하는 방법은 무엇입니까?
4 가지 가능한 이벤트의 주파수 샘플이 하나 있다고 가정합니다. Event1 - 5 E2 - 1 E3 - 0 E4 - 12 내 이벤트의 예상 확률이 있습니다. p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 내 네 가지 사건의 관측 빈도의 합으로 (18) 사건의 예상 빈도를 올바르게 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
감정 분석 이해 및 적용
방금 일부 문서 수집에 대한 감정 분석을 수행하는 프로젝트가 배정되었습니다. 인터넷 검색으로 많은 정서 관련 연구가 나타났습니다. 내 질문은 : 기계 학습 및 통계 분석 분야에서 감정 분석을위한 주요 방법 / 알고리즘은 무엇입니까? 잘 확립 된 결과가 있습니까? 감정 분석을 수행 할 수있는 기존 오픈 소스 소프트웨어가 있습니까?
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.