«data-mining» 태그된 질문

데이터 마이닝은 데이터베이스 컨텍스트에서 인공 지능의 방법을 사용하여 이전에 알려지지 않은 패턴을 발견합니다. 따라서이 방법은 일반적으로 감독되지 않습니다. 기계 학습과 밀접한 관련이 있지만 동일하지는 않습니다. 데이터 마이닝의 주요 작업은 클러스터 분석, 이상치 탐지 및 연결 규칙 마이닝입니다.

5
K- 평균의 단점을 이해하는 방법
K- 평균은 군집 분석에서 널리 사용되는 방법입니다. 내 이해에 따르면,이 방법은 모든 가정을 필요로하지 않습니다. 즉, 데이터 세트와 미리 지정된 수의 클러스터 k를 주면됩니다. 클러스터 제곱 내에서 제곱 오차 (SSE)의 합계를 최소화하는이 알고리즘을 적용하면됩니다. 오류. k- 평균은 본질적으로 최적화 문제입니다. k- 평균의 단점에 대한 자료를 읽었습니다. 그들 대부분은 다음과 같이 …

12
데이터 마이닝, 통계, 기계 학습 및 AI의 차이점은 무엇입니까?
데이터 마이닝, 통계, 기계 학습 및 AI의 차이점은 무엇입니까? 그것들이 매우 비슷한 문제를 해결하려고 시도하지만 다른 접근법을 가진 4 개의 분야라고 말하는 것이 정확합니까? 그들은 정확히 무엇을 공통점이 있으며 어디에서 다른가? 그들 사이에 어떤 종류의 계층이 있다면, 그것은 무엇입니까? 이전에 비슷한 질문이 있었지만 여전히 얻지 못했습니다. 데이터 마이닝 및 통계 …

4
일반 영어 코헨의 카파
데이터 마이닝 책을 읽고 있으며 분류기의 예측 성능을 평가하는 수단으로 Kappa 통계를 언급했습니다. 그러나 나는 이것을 이해할 수 없다. 또한 Wikipedia도 확인했지만 도움이되지 않았습니다 : https://en.wikipedia.org/wiki/Cohen's_kappa . Cohen의 카파는 분류기의 예측 성능을 평가하는 데 어떻게 도움이됩니까? 그것은 무엇을 말합니까? 100 % kappa는 분류 기가 임의 분류기와 완전히 일치 함을 의미하지만 …

9
임의의 숲에서 지식 얻기
임의의 숲은 블랙 박스로 간주되지만 최근에는 임의의 숲에서 어떤 지식을 얻을 수 있다고 생각하고 있었습니까? 가장 명백한 것은 변수의 중요성이며, 가장 간단한 변형에서는 변수의 발생 횟수를 계산하여 수행 할 수 있습니다. 두 번째로 생각한 것은 상호 작용입니다. 나무의 수가 충분히 크면 변수 쌍의 발생 횟수를 테스트 할 수 있다고 생각합니다 …

11
박사없이 데이터 마이닝에 종사
나는 학교에서 그 분야를 전공했기 때문에 데이터 마이닝 및 기계 학습 에 매우 관심이 있었지만, 프로그래밍보다 조금 더 많은 생각을 해야하는 문제를 해결하려고 정말로 흥분되어 있기 때문에 지식과 솔루션은 여러 형태를 가질 수 있습니다. 나는 연구원 / 과학자 배경이없고, 데이터 분석에 중점을 둔 컴퓨터 과학 배경에서 왔으며 박사 학위가 아닌 …


8
머신 러닝에서 찾기 어려운 기술?
데이터 마이닝과 머신 러닝이 대중화되어 거의 모든 CS 학생이 분류 자, 클러스터링, 통계적 NLP 등에 대해 알고있는 것 같습니다. 따라서 오늘날 데이터 마이너를 찾는 것은 어려운 일이 아닙니다. 내 질문은 : 데이터 마이너가 다른 사람들과 차별화 할 수있는 기술은 무엇입니까? 그를 찾기 쉽지 않은 사람 같은 사람으로 만드는 것.

8
기존 변수와 정의 된 상관 관계를 갖는 랜덤 변수 생성
시뮬레이션 연구를 위해 기존 변수 와의 미리 정의 된 (인구) 상관 관계를 나타내는 임의의 변수를 생성해야합니다 .YYY I는 들여다 R패키지 copula와 CDVine소정 의존성 구조 랜덤 변수 분포를 생성 할 수있다. 그러나 결과 변수 중 하나를 기존 변수에 고정 할 수 없습니다. 기존 기능에 대한 아이디어와 링크를 부탁드립니다! 결론 : 서로 …

2
왜 세 개의 파티션입니까? (훈련, 검증, 테스트)
모델을 대규모 데이터 세트에 맞추려고 할 때 일반적인 조언은 데이터를 교육, 검증 및 테스트 데이터 세트의 세 부분으로 분할하는 것입니다. 이는 일반적으로 모델에 세 가지 "수준"매개 변수가 있기 때문입니다. 첫 번째 "매개 변수"는 모델 클래스 (예 : SVM, 신경망, 임의 포리스트)이고 두 번째 매개 변수 세트는 "규정 화"매개 변수 또는 …


8
'빅 데이터'시점에서 샘플링이 관련이 있습니까?
아니면 더 "그렇게 될까"? 빅 데이터 는 통계와 관련 지식을 더욱 중요하게하지만 샘플링 이론을 수행하는 것으로 보입니다. 나는 '빅 데이터'에 대한이 과대 광고를 보았고 "왜"가 모든 것을 분석하고 싶은지 궁금해 할 수 없습니다 . "샘플링 이론"을 설계 / 구현 / 발명 / 발견 할 이유가 없었습니까? 데이터 세트의 전체 '인구'를 …

3
우리는“연민 공감”에 문제가 있습니까?
나는 이것이 주제가 아닌 것처럼 들릴 수 있지만 내 말을 듣는다. 스택 오버플로에서 게시물에 대한 투표를 받으면 모두 표 형식으로 저장됩니다. 예 : 게시물 유권자 ID 투표 유형 날짜 시간 ------- -------- --------- -------- 1012 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01 ... 등등. 투표 …

3
K-Means 및 EM을 사용한 클러스터링 : 어떻게 관련되어 있습니까?
데이터 클러스터링 (비지도 학습) : EM 및 k- 평균 알고리즘을 연구했습니다. 나는 다음을 계속 읽습니다. k- 평균은 군집이 구형이라는 가정하에 EM의 변형입니다. 누군가 위의 문장을 설명 할 수 있습니까? 나는 구상 의미가 무엇인지, kmeans와 EM이 어떻게 관련되는지 이해하지 못합니다. 하나는 확률 론적 할당을 수행하고 다른 하나는 결정 론적 방식으로 수행하기 …


3
숨겨진 Markov 모델과 신경망의 차이점은 무엇입니까?
통계에 발이 젖었으므로이 질문이 이해가되지 않으면 죄송합니다. Markov 모델을 사용하여 숨겨진 상태 (불공정 카지노, 주사위 롤 등) 및 신경망을 예측하여 사용자가 검색 엔진에서 클릭 한 클릭을 연구했습니다. 둘 다 우리가 관측 값을 사용하여 알아 내려고 애썼던 상태를 숨겼습니다. 이해하기 위해 둘 다 숨겨진 상태를 예측하므로 신경망에서 Markov 모델을 언제 사용할지 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.