«data-mining» 태그된 질문

데이터 마이닝은 데이터베이스 컨텍스트에서 인공 지능의 방법을 사용하여 이전에 알려지지 않은 패턴을 발견합니다. 따라서이 방법은 일반적으로 감독되지 않습니다. 기계 학습과 밀접한 관련이 있지만 동일하지는 않습니다. 데이터 마이닝의 주요 작업은 클러스터 분석, 이상치 탐지 및 연결 규칙 마이닝입니다.


3
kmeans를 실행하기 전에 상관 관계 / 공 선형 변수를 삭제해야합니까?
고객의 클러스터를 식별하기 위해 kmeans를 실행하고 있습니다. 클러스터를 식별하는 약 100 개의 변수가 있습니다. 이러한 각 변수는 고객이 카테고리에서 지출 한 비율을 나타냅니다. 따라서 100 개의 카테고리가있는 경우 각 고객에 대해이 변수의 합이 100 %가되도록 100 개의 변수를 갖습니다. 이제이 변수들은 서로 밀접하게 연관되어 있습니다. kmeans를 실행하기 전에 공선 성을 …


2
데이터 마이닝에서 카오스 이론의 기존의 실제 적용은 무엇입니까?
지난 몇 년 동안 혼돈 이론에 대한 일부 대중 시장의 작품을 우연히 읽는 동안 신경망, 패턴 인식, 불확실성 관리 등과 같은 데이터 마이닝 및 관련 분야에 다양한 측면이 어떻게 적용될 수 있는지 궁금해지기 시작했습니다. 나는 출판 된 리서치에서 그러한 애플리케이션의 예를 거의 접하지 않았기 때문에 a) 실제로 알려진, 출판 된 …

3
랜덤 포레스트 및 부스팅 파라 메트릭 또는 비 파라 메트릭입니까?
탁월한 통계 모델링 을 읽음으로써 두 문화 (Breiman 2001) 는 전통적인 통계 모델 (예 : 선형 회귀)과 기계 학습 알고리즘 (예 : 배깅, 랜덤 포레스트, 부스트 트리 ...)의 모든 차이점을 파악할 수 있습니다. Breiman은 데이터 모델 (모수)이 통계를 통해 알려진 자연스럽고 모방 된 공식 모델에 의해 관측이 생성된다는 가정에 근거하기 …

2
자기 연구는 얼마나 멀리 갈 수 있습니까?
나는 공식 또는 구조화 된 데이터 분석 또는 머신 러닝 과정 (최근의 온라인 오퍼링 제외)에 참여한 적이 없으며 읽거나 시도하여 내가 아는 대부분의 것을 배웠습니다. 나는 직장을 구할 수 없다는 것을 알고 있습니다. 제 질문은 더 나은 것이 아니라 ( 이 질문과 같은 ) 오히려 직업을 신청할 수있는 수준에 도달 …

2
희귀 한 이벤트 예측 모델을위한 오버 샘플링을 사용한 자루
다음이 설명되어 있는지, 그리고 어느 것이 든 불균형 목표 변수를 가진 예측 모델을 배우는 타당한 방법처럼 들리는 지 아는 사람이 있습니까? 데이터 마이닝의 CRM 응용 프로그램에서 종종 긍정적 이벤트 (성공)가 대다수 (음수 클래스)에 비해 매우 드문 모델을 찾습니다. 예를 들어, 0.1 %만이 긍정적 인 관심 대상 (예 : 고객이 구매 …

2
시공간 예측 오차의 탐색 적 분석
데이터 : 저는 최근 풍력 생산 예측 오류의 시공간 분야의 확률 적 특성을 분석하기 위해 노력했습니다. 공식적으로 이것은 은 시간에 두 번 ( 및 ), 한 번에 공간 ( )에 색인을 생성 하고 는 미리보기 횟수입니다 (주변과 동일) , 정기적으로 샘플링 됨), 는 "예측 시간"의 수 (즉, 예측이 발행 된 …

4
데이터를 집계하고 분석하는 가장 좋은 방법
최근에 머신 러닝 및 데이터 분석을 가르치기 시작하면서 대규모 데이터 세트를 생성하고 쿼리해야 할 필요성에 직면했습니다. 전문적이고 개인적인 삶에서 수집 한 데이터를 수집하고 분석하고 싶지만 다음을 수행하는 가장 좋은 방법은 확실하지 않습니다. 이 데이터를 어떻게 저장해야합니까? 뛰어나다? SQL? ?? 초보자가이 데이터를 분석하기 시작하는 좋은 방법은 무엇입니까? 저는 전문 컴퓨터 프로그래머이므로 …

3
데이터를 제로 평균으로 만드는 아이디어
나는 종종 모든 요소에서 평균을 제거하여 데이터 세트의 차원 / 기능을 만드는 사람들이 제로 평균임을 알 수 있습니다. 그러나 나는 왜 그렇게 해야하는지 이해하지 못했습니까? 전처리 단계로 수행하면 어떤 효과가 있습니까? 분류 성능이 향상됩니까? 데이터 세트에 대한 답변에 도움이 되나요? 시각화를 수행 할 때 데이터를 이해하는 데 도움이됩니까?

5
용어 빈도 / 역 문서 빈도 (TF / IDF) : 가중치
1000 개의 문서와 그 안에 나타나는 모든 단어를 나타내는 데이터 세트가 있습니다. 따라서 행은 문서를 나타내고 열은 단어를 나타냅니다. 그래서 예를 들어, 셀의 값은 시간을 나타내며, 워드 문서 발생 . 이제 tf / idf 방법을 사용하여 단어의 '무게'를 찾아야하지만 실제로이 작업을 수행하는 방법을 모르겠습니다. 누군가 나를 도울 수 있습니까?j i(i,j)(i,j)(i,j)jjjiii


1
R-자유도에서 PROC Mixed과 lme / lmer의 차이점
참고 :이 질문은 법적 이유로 인해 이전 질문을 삭제해야했기 때문에 다시 게시되었습니다. SAS의 PROC MIXED를 R lme의 nlme패키지 기능과 비교하는 동안 다소 혼란스러운 차이점을 발견했습니다. 구체적으로는, 다른 시험에서 자유도간에 상이 PROC MIXED하고 lme, 그리고 왜 생각해. 다음 데이터 세트에서 시작하십시오 (아래 제공된 R 코드). ind : 측정 대상을 나타내는 계수 …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
PR에 대해 하나의 값만있을 때 Precision-Recall 곡선을 형성하는 방법은 무엇입니까?
콘텐츠 기반 이미지 검색 시스템을 만드는 데이터 마이닝 할당이 있습니다. 5 마리의 동물 이미지가 20 개 있습니다. 총 100 개의 이미지가 있습니다. 내 시스템은 가장 관련성이 높은 10 개의 이미지를 입력 이미지로 반환합니다. 이제 Precision-Recall 곡선으로 시스템 성능을 평가해야합니다. 그러나 Precision-Recall 곡선의 개념을 이해하지 못합니다. 내 시스템이 고릴라 이미지에 대해 …

1
헤 시안 행렬과 공분산 행렬의 관계
최대 우도 추정을 공부하는 동안 최대 우도 추정을 추론하려면 분산을 알아야합니다. 분산을 찾으려면 Cramer의 Rao Lower Bound를 알아야합니다.이 곡선은 곡률에 두 번째 편차가있는 Hessian Matrix와 같습니다. 공분산 행렬과 헤 시안 행렬 간의 관계를 정의하기 위해 혼합되어 있습니다. 질문에 대한 설명을들을 수 있기를 바랍니다. 간단한 예가 이해 될 것이다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.