«data-mining» 태그된 질문

데이터 마이닝은 데이터베이스 컨텍스트에서 인공 지능의 방법을 사용하여 이전에 알려지지 않은 패턴을 발견합니다. 따라서이 방법은 일반적으로 감독되지 않습니다. 기계 학습과 밀접한 관련이 있지만 동일하지는 않습니다. 데이터 마이닝의 주요 작업은 클러스터 분석, 이상치 탐지 및 연결 규칙 마이닝입니다.

2
이전 이벤트 시간을 기준으로 다음 이벤트 발생시기를 예측하는 방법은 무엇입니까?
저는 고등학생이며 컴퓨터 프로그래밍 프로젝트를 진행하고 있지만 고등학교 통계 과정을 넘어서는 통계 및 모델링 데이터에 대한 경험이 많지 않아 혼란 스럽습니다. 기본적으로 누군가가 문서를 인쇄하기로 결정한 시간의 합리적으로 큰 목록 (통계 테스트 또는 측정에 대한 가정을 충족하기에 충분히 크다고 가정)을 가지고 있습니다. 이 목록을 바탕으로 이전 이벤트 시간을 모두 고려하여 …

7
머신 러닝의 바이어스 된 데이터
데이터 선택에 의해 이미 (심하게) 바이어스 된 데이터로 Machine Learning 프로젝트를 진행하고 있습니다. 하드 코딩 된 규칙 집합이 있다고 가정 해 봅시다. 사용할 수있는 모든 데이터가 해당 규칙에 의해 이미 필터링 된 데이터 인 경우이를 대체하기 위해 기계 학습 모델을 어떻게 구축합니까? 일을 명확히하기 위해 가장 좋은 예는 신용 리스크 …

3
대화 형 데이터 시각화는 언제 유용합니까?
연설을 준비하는 동안, 나는 최근 대화식 데이터 시각화를위한 두 가지 주요 도구 인 GGobi 와 mondrian을 파헤 치기 시작했습니다. 둘 다 다양한 기능을 제공합니다 (약간 버그가 있더라도). 조음 (나 자신과 미래의 청중 모두)에게 도움을 요청하고 싶습니다. 대화 형 음모를 사용하는 것이 언제 도움이됩니까? 데이터 탐색 (자신을위한) 및 데이터 프레젠테이션 ( …


2
불균형 데이터 세트에 대한 교육 접근법
불균형 테스트 데이터 세트가 있습니다. 양수 세트는 100 건으로 구성되고 음수 세트는 1500 건으로 구성됩니다. 훈련 측면에는 더 큰 후보 풀이 있습니다. 긍정적 훈련 세트는 1200 건이고 부정적인 훈련 세트는 12000 건입니다. 이런 종류의 시나리오에는 몇 가지 선택이 있습니다. 1) 전체 교육 세트에 가중치 SVM 사용 (P : 1200, N …

3
데이터 블렌딩이란 무엇입니까?
이 용어는 메소드 관련 스레드 에서 자주 나타납니다 . 되어 혼합 데이터 마이닝 및 통계 학습의 특정 방법을? Google에서 관련 결과를 얻을 수 없습니다. 블렌딩은 많은 모델의 결과를 혼합하여 더 나은 결과를 가져온 것 같습니다. 그것에 대해 더 잘 아는 데 도움이되는 자료가 있습니까?

10
데이터 마이닝 소프트웨어 도구에 대한 조사
엔지니어로 훈련을 받았지만 데이터 마이닝에 더 관심이있는 것으로 나타났습니다. 지금은 현장을 더 조사하려고합니다. 특히, 나는 존재하는 다양한 소프트웨어 툴 범주와 각 카테고리에서 주목할만한 툴과 그 이유를 이해하고 싶습니다. (저는 "최고의"도구는 말하지 않았으며, 주목할만한 도구는 화염 전쟁을 시작하지 않을 것입니다.) 특히 오픈 소스 도구이고 자유롭게 사용할 수있는 도구를 기록해 두십시오. 나는 …

4
잠재 기능의 의미?
추천 시스템의 매트릭스 인수 분해 모델을 이해하려고 노력하고 있으며 항상 '잠재적 기능'을 읽습니다. 그러나 그 의미는 무엇입니까? 기능이 교육 데이터 세트에 어떤 의미가 있는지 알고 있지만 잠재 기능에 대한 아이디어를 이해할 수 없습니다. 내가 찾을 수있는 주제에 대한 모든 문서는 너무 얕습니다. 편집하다: 적어도 아이디어를 설명하는 논문을 알려 주시면됩니다.

1
로지스틱 회귀와 서포트 벡터 머신의 차이점은 무엇입니까?
로지스틱 회귀 분석에서 훈련 샘플을 분리하는 초평면을 찾습니다. 또한 Support 벡터 머신은 최대 마진을 가진 하이퍼 플레인을 찾습니다. 내 질문 : 로지스틱 회귀 (LR)와 서포트 벡터 머신 (SVM)의 차이점은 LR이 훈련 샘플을 분리하는 하이퍼 플레인을 찾는 반면 SVM은 최대 마진을 가진 하이퍼 플레인을 찾는 것입니까? 아니면 내가 틀렸어? 참고 : …

3
다른 알고리즘 대신 k- 평균을 사용하는 이유는 무엇입니까?
나는 k- 평균에 대해 연구했고 이것들은 내가 얻은 것입니다 : k- 평균은 감독되지 않은 학습 방법을 사용하여 알려진 클러스터링 문제를 해결하는 가장 간단한 알고리즘 중 하나입니다. 큰 데이터 세트에서 실제로 잘 작동합니다. 그러나 K-Means의 단점은 다음과 같습니다. 특이 치 및 노이즈에 대한 강한 감도 비 원형 클러스터 형태에서는 제대로 작동하지 …

2
Quantile 모델링의 모델 성능
나는 중간 회귀에 중점을 두지 않고 대신 높은 양자 (예 : 75 번째) 를 통해 Quantile Regression (예 : via gbm또는 quantregR)을 사용하고 있습니다. 예측 모델링 배경에서 모델이 테스트 세트에 얼마나 적합한 지 측정하고이를 비즈니스 사용자에게 설명 할 수 있기를 원합니다. 내 질문은 어떻게? 연속 대상이있는 일반적인 설정에서 다음을 수행 …

3
적절한 분석 기술 및 테스트를 선택하는 데 도움이되는 순서도
통계 지식이 필요하지만 공식적으로 훈련 된 통계학자는 아니지만 특정 문제를 해결하기위한 올바른 접근 방식을 선택하는 데 도움이되는 순서도 (또는 일종의 의사 결정 트리)를 갖는 것이 도움이됩니다. 기술이 필요합니다. 기술 X를 사용하십시오. 데이터가 정상이 아닌 경우 Y 또는 Z를 사용하십시오 "). 인터넷 검색 후 다양한 커버리지와 품질에 대한 몇 가지 시도를 …



2
분류 및 회귀 트리 뒤의 수학
누구든지 CART 분류의 일부 수학을 설명 할 수 있습니까? 두 가지 주요 단계가 어떻게 진행되는지 이해하려고합니다. 예를 들어 데이터 세트에 대해 CART 분류기를 훈련시키고 예측 데이터를 표시하기 위해 테스트 데이터 세트를 사용했지만 다음과 같습니다. 나무의 초기 뿌리는 어떻게 선택됩니까? 각 가지가 왜 그리고 어떻게 형성됩니까? 15 개의 열과 23 개의 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.