«data-mining» 태그된 질문

데이터 마이닝은 데이터베이스 컨텍스트에서 인공 지능의 방법을 사용하여 이전에 알려지지 않은 패턴을 발견합니다. 따라서이 방법은 일반적으로 감독되지 않습니다. 기계 학습과 밀접한 관련이 있지만 동일하지는 않습니다. 데이터 마이닝의 주요 작업은 클러스터 분석, 이상치 탐지 및 연결 규칙 마이닝입니다.



2
이 모델 접근 방식에 과적 합이 있습니까?
나는 최근에 내가 따르는 과정 (MS 논문의 구성 요소)이 과적 합으로 보일 수 있다고 들었다. 나는 이것을 더 잘 이해하고 다른 사람들이 동의하는지 확인하려고합니다. 이 부분의 목적 은 데이터 세트에서 그라디언트 부스트 회귀 트리의 성능을 랜덤 포레스트와 비교하십시오. 선택한 최종 모델 (GBM 또는 RF)의 성능을 확인하십시오. R 의 gbm및 randomForest패키지가 …

3
데이터가 포함 된 실용적인 PCA 튜토리얼
인터넷에서 PCA 튜토리얼을 검색하면 수천 개의 결과 (동영상)가 제공됩니다. 많은 튜토리얼이 매우 좋습니다. 그러나 데모에 사용할 수있는 일부 데이터 세트를 사용하여 PCA를 설명하는 실용적인 예를 찾을 수 없습니다. PCA 분석 전후에 플롯하기 쉬운 작은 데이터 세트 (10000s의 데이터가 아닌 10000s의 라인이 아님)를 제공하는 자습서가 필요하며 차이 / 결과를 명확하게 보여줄 …

1
규칙을 사용하여 새 데이터에 적합한 규칙 찾기
R (및 arules 패키지)을 사용하여 연결 규칙에 대한 마이닝 트랜잭션을 사용하고 있습니다. 내가하고 싶은 것은 규칙을 구성 한 다음 새로운 데이터에 적용하는 것입니다. 예를 들어, 많은 규칙이 있는데 그 중 하나는 표준 규칙 {Beer=YES} -> {Diapers=YES}입니다. 그런 다음 레코드 중 하나가 맥주를 구입했지만 기저귀는 구입하지 않은 새로운 거래 데이터가 있습니다. …

14
이름에서 얼마나 많은 정보를 찾을 수 있습니까?
이름 : 먼저, 중간, 성. 공개적으로 사용 가능한 데이터 세트를 사용하여 이름에서 채굴 할 수있는 정보의 양이 궁금합니다. 나는 미국 인구 조사 데이터를 사용하여 (입력에 따라) 낮은 확률 사이에서 다음과 같은 것을 얻을 수 있음을 알고 있습니다 : 1) 성별. 2) 레이스. 예를 들어, Facebook은 사이트 사용자의 인종 분포 (https://www.facebook.com/note.php?note_id=205925658858)를 …

1
R / mgcv : te () 및 ti () 텐서 제품이 다른 표면을 생성하는 이유는 무엇입니까?
mgcv에 대한 패키지는 R텐서 제품의 상호 작용을 피팅에 대한 두 가지 기능이 있습니다 : te()와 ti(). 나는 둘 사이의 기본 노동 분열을 이해한다 (비선형 상호 작용에 적합하고이 상호 작용을 주요 효과와 상호 작용으로 분해). 내가 이해할 수없는 것은 왜 te(x1, x2)와 ti(x1) + ti(x2) + ti(x1, x2)(약간) 다른 결과가 발생할 …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

5
로지스틱 회귀 분석을 위해 데이터를 분할하는 수단으로 클러스터링
로지스틱 회귀 모델의 일부 기능을 기반으로 학생의 성공 또는 실패를 예측하려고합니다. 모델의 성능을 향상시키기 위해 나는 명백한 차이를 기반으로 학생들을 여러 그룹으로 나누고 각 그룹에 대해 별도의 모델을 만드는 것에 대해 이미 생각했습니다. 그러나 시험을 통해 이러한 그룹을 식별하는 것이 어려울 수 있으므로 학생들을 기능별로 묶어서 분할하는 것을 생각했습니다. 이러한 …

3
데이터 전처리 및 이상치 탐지 기술을 다루는 훌륭한 책
제목이 올라 가면서, 일반적으로 데이터 전처리, 특히 이상치 탐지 기술을 다루는 최신의 좋은 책을 아는 사람이 있습니까? 이 책은 그것에 독점적으로 초점을 맞출 필요는 없지만 앞에서 언급 한 주제를 철저히 다루어야합니다. 나는 시작점에 만족하지 않고 논문 목록을 인용하며 다양한 기술에 대한 설명이 책 자체. 누락 된 데이터를 처리하는 기술이 바람직하지만 …

2
f- 측정은 정확성과 동의어입니까?
나는 f- 측정 (정밀도와 리콜에 기초한)이 분류 기가 얼마나 정확한지 추정한다는 것을 이해합니다. 또한 불균형 데이터 세트가있을 때 정확도보다 f- 측정이 선호 됩니다. 간단한 질문이 있습니다 (기술보다는 올바른 용어를 사용하는 것에 관한 것입니다). 불균형 데이터 세트가 있으며 실험에서 f- 측정을 사용합니다. 머신 러닝 / 데이터 마이닝 회의 가 아닌 논문을 …

2
구성 요소의 수를 선택하기 위해 PCA 적합의 품질을 평가하기위한 좋은 메트릭은 무엇입니까?
주요 성분 분석 (PCA)의 품질을 평가하기위한 좋은 지표는 무엇입니까? 데이터 세트에서이 알고리즘을 수행했습니다. 저의 목표는 기능의 수를 줄이는 것이 었습니다 (정보는 매우 중복되었습니다). 분산의 백분율이 유지하는 정보의 양을 나타내는 좋은 지표라는 것을 알고 있습니다. 중복 정보를 제거하고 그러한 정보를 '손실'하지 않았는지 확인하는 데 사용할 수있는 다른 정보 메트릭이 있습니까?

1
오바마 캠페인의 데이터 마이닝 기술
나는 오바마의 재선거 캠페인에서 데이터 마이닝 팀에 대해이 기사 를 보았습니다. 불행히도이 기사는 통계 알고리즘의 실제 메커니즘에 대해 매우 모호합니다. 그러나 일반적인 기술이 사회 및 정치 과학에서 알려진 것처럼 들렸습니다. 이것이 저의 전문 분야가 아니기 때문에, 이런 종류의 기술에 관한 저에게 (개요) 문헌을 알려 주실 수 있습니까?

1
Anova ()와 drop1 ()이 GLMM에 다른 답변을 제공 한 이유는 무엇입니까?
GLMM 형식이 있습니다. lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 를 사용할 때 자동차 패키지 또는에서 사용할 때 drop1(model, test="Chi")와 다른 결과를 얻습니다 . 후자의 두 사람도 같은 대답을합니다.Anova(model, type="III")summary(model) 조작 된 데이터를 사용 하여이 두 가지 방법이 일반적으로 다르지 않다는 것을 알았습니다. …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
"모델 학습"이라는 용어는 어디에서 유래 되었습니까?
종종 데이터 마이너가이 용어를 사용한다고 들었습니다. 분류 문제를 다루는 통계 학자로서 저는 "분류기를 훈련 시키십시오"라는 용어에 익숙하며 "모델을 배우십시오"라는 말도 같은 의미라고 생각합니다. "분류기를 훈련 시키십시오"라는 용어는 신경 쓰지 않습니다. 훈련 데이터를 사용하여 모델 매개 변수의 양호하거나 "향상된"추정값을 얻는 데 모델을 적합시키는 아이디어를 나타내는 것 같습니다. 그러나 배운다는 것은 지식을 …

3
bigram (N-gram) 모델을 사용하여 텍스트 문서의 피처 벡터 작성
텍스트 마이닝을위한 기능 구성에 대한 전통적인 접근 방식은 단어 별 접근 방식이며, tf-idf를 사용하여 주어진 텍스트 문서를 특성화하는 기능 벡터를 설정하여 향상시킬 수 있습니다. 현재 피처 벡터를 구축하기 위해 Bi-gram 언어 모델 또는 (N-gram)을 사용하려고하는데 어떻게 해야할지 모르겠습니다. 단어 대신 백 그램 단위로 빈도 수를 계산하고 tf-idf 가중치 구성표를 사용하여 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.