«data-mining» 태그된 질문

데이터 마이닝은 데이터베이스 컨텍스트에서 인공 지능의 방법을 사용하여 이전에 알려지지 않은 패턴을 발견합니다. 따라서이 방법은 일반적으로 감독되지 않습니다. 기계 학습과 밀접한 관련이 있지만 동일하지는 않습니다. 데이터 마이닝의 주요 작업은 클러스터 분석, 이상치 탐지 및 연결 규칙 마이닝입니다.

2
공통 주제별로 문자열을 그룹화하려면 어떻게해야합니까?
예를 들어, 프로그래밍에 관한 다른 문자열로 프로그래밍하는 것에 관한 문자열, 물리학에 관한 다른 문자열을 가진 물리에 관한 문자열 등을 광범위한 주제로 그룹화하려고합니다. 문제의 눈에 띄는 이론적 언어 측면에도 불구하고 실제로 프로그래밍 / 소프트웨어를 사용 하여이 작업을 수행하려고합니다. 요약 : 많은 문자열이 주어지면 의미 론적 주제별로 그룹화하는 방법은 무엇입니까? 특정 응용 …

3
데이터 셋을 첫눈에
내 무지를 용서해주세요 나는 내가 찾은 많은 새로운 데이터에 직면하고있는 상황에서 나 자신을 계속 찾고 있습니다. 이 데이터는 일반적으로 다음과 같습니다. Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) 보통 언뜻보기에 추세가 있는지 실제로 알 수는 없습니다. …

1
충돌과 시스템 환경 사이의 상관 관계를 어떻게 찾을 수 있습니까?
여가 시간에는 Delphi Windows 응용 프로그램에서 전송되는 충돌 보고서 (충돌하지 않는 다른 버그 보고서는 아님)를 수집하는 작은 웹 기반 시스템을 개발 중입니다. 문제 해결을 위해 사용자는 하드웨어 또는 운영 체제 버전과 특정 버그 및 / 또는 충돌 간의 관계를 찾기위한 데이터 마이닝 기능을 원합니다. 예를 들어 이것이 작동하는 방법 : …

1
계량 분석법의 실제 적용에 대한 문서화 / 재생 가능한 예?
이 질문은 매우 광범위하게 들릴지 모르지만 여기에 내가 찾는 것이 있습니다. 계량 경제법에 관한 훌륭한 책과 계량법에 대한 훌륭한 설명이 많이 있습니다. 이 CrossValidated question에 설명 된 것처럼 재현 가능한 계량 경제학 예제 도 있습니다 . 실제로이 질문의 예는 내가 찾고있는 것에 매우 가깝습니다. 이 예제에서 누락 된 것은 연구 …

2
기능적 데이터 분석과 고차원 데이터 분석의 차이점
통계 문헌에는 " 기능적 데이터 "(즉, 곡선 인 데이터) 및 " 고차원 데이터 "(즉, 데이터가 고차원 벡터 인 경우)에 대한 많은 참조가있다. 내 질문은 두 가지 유형의 데이터의 차이점에 관한 것입니다. 사례 1에 적용되는 통계적 방법론에 대해 이야기 할 때 사례 2의 함수론을 유한 공간 부분 공간으로의 투영을 통한 방법론의 …

6
추세를 식별하기 위해 신호 처리 원리를 신중하게 사용
나는 매우 시끄러운 장기 데이터에서 추세를 찾으려고 제안하고 있습니다. 데이터는 기본적으로 약 8 개월 동안 약 5mm 이동 한 것에 대한 주 단위 측정입니다. 데이터는 1mm 정확도이며 일주일에 정기적으로 +/- 1 또는 2mm로 시끄 럽습니다. 가장 가까운 mm까지의 데이터 만 있습니다. 원시 데이터에서 노이즈를 분리하기 위해 고속 푸리에 변환과 함께 …

1
K- 평균 : 실제 상황에서 얼마나 많은 반복이 있습니까?
데이터 마이닝 또는 빅 데이터에 대한 업계 경험이 없으므로 경험을 공유하는 것을 듣고 싶습니다. 사람들이 실제로 큰 데이터 세트에서 k- 평균, PAM, CLARA 등을 실행합니까? 아니면 무작위로 샘플을 추출합니까? 데이터 집합의 샘플 만 가져 오는 경우 데이터 집합이 정규 분포를 따르지 않으면 결과가 신뢰할 수 있습니까? 이러한 알고리즘을 실행할 때 …


1
R 선형 회귀 범주 형 변수 "숨김"값
이것은 여러 번 나온 예제 일뿐이므로 샘플 데이터가 없습니다. R에서 선형 회귀 모델 실행 : a.lm = lm(Y ~ x1 + x2) x1연속 변수입니다. x2범주 형이며 "낮음", "중간"및 "높음"의 세 가지 값이 있습니다. 그러나 R이 제공하는 출력은 다음과 같습니다. summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


2
부스팅에 대한 가방 외부 오류 추정치?
랜덤 포레스트에서 각 트리는 고유 한 부 스트랩 데이터 샘플에서 병렬로 성장합니다. 각 부 스트랩 샘플에는 고유 한 관측치의 약 63 %가 포함될 것으로 예상되므로, 관측치의 약 37 %가 트리 테스트에 사용될 수 있습니다. 이제 확률 적 그라디언트 부스팅에서는 RF와 비슷한 추정치가있는 것 같습니다.오 오비e r r o rOOBerrorOOB_{error} bag.fraction이 …

2
CART 트리는 예측 변수 간의 상호 작용을 캡처합니까?
이 논문 은 CART에서 각 단계에서 단일 공변량에 대해 이진 분할이 수행되므로 모든 분할이 직교하므로 공변량 간의 상호 작용은 고려되지 않는다고 주장합니다. 그러나 트리의 계층 적 구조는 예측 변수들 간의 상호 작용이 자동으로 모델링된다는 것을 보장한다고 주장하는 많은 매우 진지한 언급 이있다 (예를 들어, 이 논문 과 물론 Hastie). 누가 …

1
LOF (Local Outlier Factor) 탐지 분석을위한 k- 값 선택
3 차원 데이터 세트가 있으며 가장 특이하거나 이상한 값을 식별하기 위해 Local Outlier Factor 분석을 사용하려고합니다. LOF 분석에 사용할 k- 값을 어떻게 결정합니까? k- 값이 무엇을 결정하는지 이해하므로 다른 k를 사용하여 약간 다른 결과를보고 있다는 사실에 놀라지 않습니다. . 감사!

1
계량 경제학에 텍스트 마이닝 / 자연어 처리 도구 사용
이 질문이 여기에 완전히 적합한 지 잘 모르겠습니다. 그렇지 않은 경우 삭제하십시오. 저는 경제학을 전공하는 대학원생입니다. 사회 보험 문제를 조사하는 프로젝트의 경우, 자격 평가를 다루는 수많은 행정 사건 보고서 (> 200k)에 접근 할 수 있습니다. 이러한 보고서는 개별 관리 정보에 연결될 수 있습니다. 양적 분석에 사용할 수있는 보고서에서 grep/ awk등을 …

5
사전 클러스터링이 더 나은 예측 모델을 구축하는 데 도움이됩니까?
이탈 모델링 작업을 위해 다음을 고려했습니다. 데이터에 대한 k 개의 클러스터 계산 각 클러스터에 대해 k 개의 모델을 개별적으로 빌드하십시오. 그 이유는, 서브 스크 라이버의 집단이 동 질적이라는 것을 증명할 것이 없다는 것의 근거이다. 내 질문은 적절한 방법입니까? 위반 사항이 있거나 어떤 이유로 나쁜 것으로 간주됩니까? 그렇다면 왜 그렇습니까? 그렇지 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.