«data-mining» 태그된 질문

데이터 마이닝은 데이터베이스 컨텍스트에서 인공 지능의 방법을 사용하여 이전에 알려지지 않은 패턴을 발견합니다. 따라서이 방법은 일반적으로 감독되지 않습니다. 기계 학습과 밀접한 관련이 있지만 동일하지는 않습니다. 데이터 마이닝의 주요 작업은 클러스터 분석, 이상치 탐지 및 연결 규칙 마이닝입니다.


8
특징 별 데이터가 아닌 거리 행렬만으로 K- 평균 (또는 가까운 친척) 클러스터링 수행
내가 가진 객체에서 K- 평균 군집화를 수행하고 싶지만 객체가 공간의 포인트, 즉 objects x features데이터 세트 로 설명되지 않습니다 . 그러나 두 객체 사이의 거리를 계산할 수 있습니다 (유사 기능을 기반으로 함). 그래서 나는 거리 행렬을 폐기합니다 objects x objects. 이전에 K- 평균을 구현했지만 포인트 데이터 세트 입력이있었습니다. 거리 매트릭스 …

5
새로운 혁신적인 데이터 마이닝 방법?
다음 발췌문은 Schwager의 헤지 펀드 마켓 위저드 (2012 년 5 월)에서 지속적으로 성공적인 헤지 펀드 관리자 인 Jaffray Woodriff와의 인터뷰 에서 발췌 한 것입니다 . 질문 : "데이터 마이닝에서 사람들이 만드는 최악의 오류는 무엇입니까?": 많은 사람들이 훈련에 샘플 데이터를 사용하고 테스트에 샘플 외부 데이터를 사용하기 때문에 괜찮다고 생각합니다. 그런 다음 …

3
빅 데이터의 첫 번째 단계 (
하루에 수십억 건의 관측치로 거대한 데이터 세트를 분석한다고 가정합니다. 각 관측치에는 수 천 개의 희소하고 중복되는 수치 및 범주 형 변수가 있습니다. 회귀 문제 하나, 불균형 이진 분류 문제 하나 및 "어떤 예측 변수가 가장 중요한지 알아내는 작업"이 있다고 가정하겠습니다. 문제에 접근하는 방법에 대한 내 생각은 다음과 같습니다. 다음과 같은 …

4
의사 결정 트리는 거의 항상 이진 트리입니까?
내가 본 거의 모든 의사 결정 트리 예제는 이진 트리입니다. 이것은 보편적입니까? 대부분의 표준 알고리즘 (C4.5, CART 등)은 이진 트리 만 지원합니까? 내가 수집 한 것에서 CHAID 는 이진 트리로 제한되지 않지만 예외로 보입니다. 자식 중 하나에 대한 양방향 분할과 다른 양방향 분할은 단일 3 방향 분할과 동일하지 않습니다. 이것은 …

2
모델 선택 후 교차 검증 (오류 일반화)
참고 : 사례는 n >> p입니다. 통계 학습의 요소를 읽고 있으며 교차 검증을 수행하는 "올바른"방법에 대한 다양한 언급이 있습니다 (예 : 60 페이지, 245 페이지). 특히, 내 질문은 모델 검색이있을 때 k- 폴드 CV 또는 부트 스트랩을 사용하여 (별도의 테스트 세트없이) 최종 모델을 평가하는 방법입니다. 대부분의 경우 (내장 기능 선택이없는 …

2
k- 평균 군집화가 가우스 혼합 모델링의 한 형태 인 경우 데이터가 정상적이지 않을 때 사용할 수 있습니까?
GMM에 대한 EM 알고리즘과 GMM과 k- 평균 간의 관계에 대한 Bishop을 읽고 있습니다. 이 책에서는 k-means가 GMM의 하드 할당 버전이라고 말합니다. 클러스터링하려는 데이터가 가우시안이 아닌 경우 k- 평균을 사용할 수 없거나 적어도 사용하기에 적합하지 않다는 것을 궁금합니다. 예를 들어, 데이터가 각각 0 또는 1의 값을 가진 8 * 8 픽셀로 …


2
딥 러닝은 어디서 그리고 왜 빛을 발합니까?
요즘 모든 미디어가 딥 러닝에 대해 이야기하고 과대 광고를하면서 몇 가지 기본적인 내용을 읽었습니다. 방금 데이터에서 패턴을 배우는 것이 또 다른 기계 학습 방법이라는 것을 알았습니다. 그러나 내 질문은 :이 방법은 어디에서 왜 빛나는가? 왜 모든 얘기를 지금하는거야? 즉 소란은 무엇입니까?

2
StackExchange 질문에 대한 "흥미"기능
이 질문은 교차 검증에서 답변 될 수 있기 때문에 Mathematics Stack Exchange에서 마이그레이션 되었습니다. 8 년 전에 이주했습니다 . StackExchange 사이트를위한 데이터 마이닝 패키지를 만들려고하는데 특히 "가장 흥미로운"질문을 찾기 위해 노력하고 있습니다. 질문 점수를 사용하고 싶지만 조회수로 인한 편견을 제거하고 있지만 엄격하게 접근하는 방법을 모르겠습니다. 이상적인 세계에서는 을 계산하여 질문을 …

1
원격 감독 : 감독, 반 감독 또는 둘 다?
"원격 감독"은 약하게 분류 된 훈련 세트가 주어지면 분류자가 학습되는 학습 체계입니다 (훈련 데이터는 휴리스틱 / 규칙에 따라 자동으로 표시됩니다). 레이블이있는 데이터에 경험적 / 자동으로 레이블이 지정된 경우 감독 학습과 준 감독 학습 모두 그러한 "원격 감독"을 포함 할 수 있다고 생각합니다. 그러나이 페이지 에서 "원격 감독"은 "반 감독 학습"(즉, …

2
강화 : 왜 학습률이 정규화 매개 변수라고 불리는가?
그라디언트 부스팅 의 학습 속도 매개 변수 ( )는 시리즈에 추가 된 각각의 새 기본 모델 (일반적으로 얕은 나무)의 기여도를 줄입니다. 테스트 세트 정확도를 크게 향상시키는 것으로 나타 났으며, 이는 작은 단계에서와 같이 이해할 수있는 최소 손실 기능을보다 정확하게 얻을 수 있습니다. ν∈ [ 0 , 1 ]ν∈[0,1]\nu \in [0,1] …

3
데이터 마이닝에서 연관 규칙과 의사 결정 트리의 실제 차이점은 무엇입니까?
이 두 기술의 실제 차이점에 대한 간단한 설명이 있습니까? 둘 다 감독 학습에 사용되는 것으로 보입니다 (연관 규칙은 감독되지 않은 사람도 처리 할 수 ​​있음). 둘 다 예측에 사용될 수 있습니다 내가 '좋은'설명에서 찾은 가장 가까운 것은 Statsoft Textbook에서 입니다. 그들은 협회 규칙 이 다음을 위해 사용 된다고 말합니다 . …


6
데이터 마이닝과 통계 분석의 차이점은 무엇입니까?
데이터 마이닝과 통계 분석의 차이점은 무엇입니까? 어떤 배경에서는 통계 교육이 다소 전통적이라고 생각합니다. 특정 질문이 제기되고 연구가 설계되며 데이터가 수집 및 분석되어 해당 질문에 대한 통찰력을 제공합니다. 결과적으로, 나는 항상 "데이터 준설 (data dredging)", 즉 큰 데이터 세트에서 패턴을 찾고 이러한 패턴을 사용하여 결론을 도출하는 것에 대해 회의적이었습니다. 나는 후자를 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.