«data-mining» 태그된 질문

데이터 마이닝은 데이터베이스 컨텍스트에서 인공 지능의 방법을 사용하여 이전에 알려지지 않은 패턴을 발견합니다. 따라서이 방법은 일반적으로 감독되지 않습니다. 기계 학습과 밀접한 관련이 있지만 동일하지는 않습니다. 데이터 마이닝의 주요 작업은 클러스터 분석, 이상치 탐지 및 연결 규칙 마이닝입니다.

2
"빅 데이터"에서 올바른 결론을 도출하는 방법은 무엇입니까?
"빅 데이터"는 미디어 어디에나 있습니다. KDNuggets는 2012 년의 뜨거운 주제에 대한 설문 조사와 같이 "빅 데이터"가 2012 년에 가장 중요한 것이라고 말합니다 . 그러나 나는 여기에 깊은 우려가 있습니다. 빅 데이터를 사용하면 모든 것이 무엇이든 기뻐하는 것 같습니다 . 그러나 우리는 가설 검정 및 대표 표본 추출과 같은 모든 고전적인 …

5
데이터 마이닝에서 측정 값 상승
리프트가 정확히 어떻게 작동하는지 알기 위해 많은 웹 사이트를 검색 했습니까? 내가 찾은 결과는 응용 프로그램 자체가 아니라 응용 프로그램에서 사용하는 것입니다. 나는 지원과 자신감 기능에 대해 알고 있습니다. Wikipedia의 데이터 마이닝에서 리프트는 사례를 예측하거나 분류 할 때 모델의 성능을 측정하고 무작위 선택 모델을 기준으로 측정합니다. 그러나 어떻게? 신뢰도 * …

5
베이지안처럼 생각하고, 잦은 주의자처럼 확인하십시오 : 그게 무슨 뜻입니까?
여기에서 찾을 수있는 데이터 과학 과정에 대한 강의 슬라이드를보고 있습니다. https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf 안타깝게도이 강의에 대한 비디오를 볼 수 없으며 슬라이드의 어느 시점에서 발표자가 다음과 같은 텍스트를 가지고 있습니다. 일부 주요 원칙 베이지안처럼 생각하고, Frequentist처럼 확인하십시오 (조정) 그게 실제로 무엇을 의미하는지 아는 사람이 있습니까? 이 두 가지 생각 학교에 대해 좋은 통찰력이 …

3
로지스틱 회귀 95 % 신뢰 구간을 수동으로 계산하는 것과 R에서 confint () 함수를 사용하는 것 사이에 차이가있는 이유는 무엇입니까?
사랑하는 여러분, 제가 설명 할 수없는 이상한 것을 발견했습니다. 요약 : 로지스틱 회귀 모델에서 신뢰 구간을 계산하는 수동 방법과 R 함수 confint()는 다른 결과를 제공합니다. Hosmer & Lemeshow의 Applied Logistic Regression (2 판)을 진행했습니다. 세 번째 장에는 승산 비와 95 % 신뢰 구간을 계산하는 예가 있습니다. R을 사용하면 모델을 쉽게 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 


1
부스팅의 상대 변수 중요도
Gradient Boosted Trees에서 상대 변수 중요성이 계산되는 방법에 대한 설명을 찾고 있습니다. 측정 값은 변수가 분할을 위해 선택된 횟수, 각 분할의 결과로 모델의 제곱 개선에 의해 가중치가 부여되고 모든 트리에서 평균화 됩니다. [ Elith et al. 2008, 회귀 트리 향상을위한 작업 가이드 ] 그리고 그것은 덜 추상적입니다. 나는2j^( T) = …

1
“성경”에피소드에서 통계적으로 교훈을 얻습니까
이 질문은 다소 주관적이지만 FAQ 지침 에 따라 좋은 주관적인 질문으로 인정되기를 바랍니다 . 그것은 Olle Häggström이 1 년 전에 나에게 물었던 질문을 기반으로하며 그것에 대해 약간의 생각이 있지만 명확한 대답이 없으며 다른 사람들의 도움을 부탁드립니다. 배경: D. Witztum, E. Rips 및 Y. Rosenberg의 "창세기 책에있는 등가의 문자 순서"라는 제목의 …

8
데이터 마이닝 및 머신 러닝을 준비하기 위해 어떤 수학 과목을 제안 하시겠습니까?
데이터 마이닝 및 기계 학습을 준비하기 위해 자체 지시 수학 커리큘럼을 구성하려고합니다. 이것은 코스타에서 Andrew Ng의 머신 러닝 수업 을 시작 하고 진행하기 전에 수학 능력을 향상시켜야한다고 느꼈습니다. 얼마 전 대학을 졸업 했으므로 대수와 통계 (특히 정치 과학 / 심리학 수업)는 녹슬 었습니다. 스레드의 답 수학의 강력한 배경이 ML의 전제 …

2
단계적 선택을 수행 한 후 p- 값이 잘못된 이유는 무엇입니까?
예를 들어 선형 회귀 모델을 생각해 봅시다. 데이터 마이닝에서 AIC 기준을 기반으로 단계별 선택을 수행 한 후 각 실제 회귀 계수가 0이라는 귀무 가설을 테스트하기 위해 p- 값을 보는 것이 잘못되었다고 들었습니다. 모델에 남아있는 모든 변수를 0과 다른 실제 회귀 계수로 간주해야한다고 들었습니다. 아무도 왜 나에게 설명 할 수 있습니까? …

1
표준 및 구형 k- 평균 알고리즘의 차이점
표준 및 구형 k- 평균 군집 알고리즘의 주요 구현 차이점은 무엇인지 이해하고 싶습니다. 각 단계에서 k- 평균은 요소 벡터와 군집 중심 사이의 거리를 계산하고 중심이 가장 가까운 군집에 문서를 재 할당합니다. 그런 다음 모든 중심이 다시 계산됩니다. 구형 k- 평균에서는 모든 벡터가 정규화되고 거리 측정 값은 코사인 비 유사성입니다. 그게 …

9
대규모 데이터 세트를 처리하기위한 통계 및 데이터 마이닝 소프트웨어 도구
현재 약 2 천만 개의 레코드를 분석하고 예측 모델을 작성해야합니다. 지금까지 Statistica, SPSS, RapidMiner 및 R을 사용해 보았습니다.이 통계 중 데이터 마이닝을 처리하는 데 가장 적합한 것으로 보이며 RapidMiner 사용자 인터페이스도 매우 편리하지만 Statistica, RapidMiner 및 SPSS는 소규모 데이터 세트에만 적합합니다. . 누구든지 큰 데이터 세트에 적합한 도구를 추천 할 …

7
기계 학습 과학자의 일상적인 직업은 무엇입니까?
저는 독일 대학에서 CS 논문을 공부하고 있습니다. 2 개월 안에 박사 학위를 계속하거나 업계에서 일자리를 구해야한다면 매우 어려운 결정을 내려야합니다. 박사 학위를 취득한 이유 : 나는 호기심이 사람이야 그리고 내가 아직 부족한 느낌이 너무 많은 지식을. 더 많은 것을 배우고 싶습니다. 더 많은 과정을 수강하고 수많은 논문을 읽을 수 있으며 …

3
LSA 및 PCA (문서 클러스터링)
문서 클러스터링에 사용되는 다양한 기술을 조사하고 있으며 PCA (주요 구성 요소 분석) 및 LSA (잠재적 의미 분석)와 관련된 몇 가지 의문을 해결하고 싶습니다. 첫 번째-차이점은 무엇입니까? PCA에서 SVD 분해는 항 공분산 행렬에 적용되는 반면 LSA에서는 항 문서 행렬입니다. 다른 것이 있습니까? 둘째-문서 클러스터링 절차에서 그들의 역할은 무엇입니까? 지금까지 읽은 내용을 …

3
다중 레이블 데이터의 정확성을 측정하는 방법은 무엇입니까?
KnownLabel 매트릭스 및 PredictedLabel 매트릭스가 제공되는 시나리오를 고려하십시오. KnownLabel 매트릭스에 대한 PredictedLabel 매트릭스의 장점을 측정하고 싶습니다. 그러나 여기서의 과제는 KnownLabel 매트릭스에는 하나의 행이 하나만 있고 다른 몇 행에는 많은 행이 있다는 것입니다 (이 인스턴스는 다중 레이블이 지정됨). KnownLabel 매트릭스의 예는 다음과 같습니다. A =[1 0 0 0 0 1 0 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.