«data-mining» 태그된 질문

데이터 마이닝은 데이터베이스 컨텍스트에서 인공 지능의 방법을 사용하여 이전에 알려지지 않은 패턴을 발견합니다. 따라서이 방법은 일반적으로 감독되지 않습니다. 기계 학습과 밀접한 관련이 있지만 동일하지는 않습니다. 데이터 마이닝의 주요 작업은 클러스터 분석, 이상치 탐지 및 연결 규칙 마이닝입니다.

2
그룹에서 가장 큰 기여자를 결정
나는 통계에 대해 잘 모르므로 나와 함께 견뎌야합니다. 1000 명의 근로자가 있다고 가정 해 봅시다. 나는 가장 열심히 일하는 사람이 누구인지 알아 내고 싶지만, 1 시간에서 100 시간 동안 일한 그룹의 작업량 만 측정 할 수 있습니다. 각 근로자가 항상 같은 양의 작업을 수행한다고 가정하면, 많은 시련과 조합을 통해 가장 …


2
감정 분석 이해 및 적용
방금 일부 문서 수집에 대한 감정 분석을 수행하는 프로젝트가 배정되었습니다. 인터넷 검색으로 많은 정서 관련 연구가 나타났습니다. 내 질문은 : 기계 학습 및 통계 분석 분야에서 감정 분석을위한 주요 방법 / 알고리즘은 무엇입니까? 잘 확립 된 결과가 있습니까? 감정 분석을 수행 할 수있는 기존 오픈 소스 소프트웨어가 있습니까?

2
분류를 위해 훈련 세트에서 중복 제거
분류 문제에 대해 많은 행이 있다고 가정 해 봅시다. 엑스1, . . .엑스엔, YX1,...XN,YX_1, ... X_N, Y 어디 엑스1, . . . ,엑스엔X1,...,XNX_1, ..., X_N 기능 / 예측 자와 와이YY 행의 기능 조합이 속한 클래스입니다. 많은 기능 조합과 해당 클래스가 데이터 세트에서 반복되어 분류기에 적합합니다. 중복을 제거 할 수 있는지 …

5
Pearson 상관 관계를 넘어서 무엇을 할 수 있습니까?
두 변수가 상관되어 있는지 확인하는 동안 Pearson 상관 관계를 적용하면 상관 관계가 없음을 나타내는 0.1만큼 낮은 숫자가 생성됩니다. 이 주장을 강화하기 위해 내가 할 수있는 일이 있습니까? 내가보고있는 데이터 세트 (게시 제한으로 인해 서브 세트)는 다음과 같습니다. 6162.178176 0.049820046 4675.14432 0.145022261 5969.056896 0.47210138 5357.506176 0.052263122 33.796224 16.45154204 6162.178176 0.064262991 6725.448576 …

3
매우 큰 데이터 세트에서 중요한 변수를 빠르게 선택하는 방법은 무엇입니까?
약 2,000 개의 이진 변수 / 100,000 행의 데이터 세트가 있고 단일 이진 종속 변수를 예측하려고합니다. 이 단계에서 나의 주요 목표는 예측의 정확성을 얻는 것이 아니라 이러한 변수 중 어떤 변수가 중요한 예측 변수인지 식별하는 것입니다. 최종 모델의 변수 수를 약 100으로 줄이려고합니다. 가장 중요한 변수를 얻는 비교적 빠른 방법이 …

3
평범한 영어로 된 Apriori 알고리즘?
Apriori에 대한 위키 기사를 읽었습니다. 정리 및 가입 단계를 이해하는 데 문제가 있습니다. 누구든지 Apriori 알고리즘이 간단한 용어로 어떻게 작동하는지 설명 할 수 있습니까 (나 같은 초보자도 쉽게 이해할 수 있도록)? 누군가가 관련된 단계별 프로세스를 설명하면 좋을 것입니다.

2
바이러스 터링 시작하기
나는 biclusters에 대한 약간의 인터넷 연구를 해왔다. (위키 기사를 여러 번 읽었습니다.) 지금까지 정의 나 표준 용어가 거의없는 것 같습니다. Biclusters를 찾는 알고리즘에 관심이있는 사람이 읽어야 할 표준 논문이나 서적이 있는지 궁금합니다. 해당 분야의 최신 기술 상태를 말할 수 있습니까? 나는 유전자 알고리즘을 사용하여 biclusters를 찾는다는 개념에 흥미가 있었기 때문에 …

2
데이터에 대한 ROC 곡선 계산
그래서, 나는 16 개의 시험을 가지고 있는데, 여기에서 Hamming Distance를 사용하여 생체 특성으로부터 사람을 인증하려고합니다. 임계 값이 3.5로 설정되었습니다. 내 데이터는 다음과 같으며 1 번 시험 만 참 긍정입니다. Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.