«data-mining» 태그된 질문

크고 복잡한 데이터 세트에서 패턴을 찾는 활동입니다. 일반적으로 알고리즘 기법을 강조하지만 해당 목표를 가진 관련 기술, 응용 프로그램 또는 방법론을 포함 할 수도 있습니다.

13
혼합 숫자 및 범주 형 데이터에 대한 K- 평균 군집
내 데이터 세트에는 많은 숫자 속성과 하나의 범주가 있습니다. , 말 NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, 여기서,이 CategoricalAttr세 개의 가능한 값 중 하나를 취 CategoricalAttrValue1, CategoricalAttrValue2또는 CategoricalAttrValue3. Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/에 대한 기본 k- 평균 군집 알고리즘 구현을 사용하고 있습니다 . 숫자 데이터로만 작동합니다. 그래서 내 질문 : 범주 속성 CategoricalAttr을 세 …

8
파이썬에서 오픈 소스 이상 탐지
문제 배경 : IT 모니터링 공간에서 찾은 것과 비슷한 로그 파일이 포함 된 프로젝트를 진행하고 있습니다 (IT 공간을 가장 잘 이해하고 있음). 이 로그 파일은 시계열 데이터이며 다양한 매개 변수의 수백 / 수천 행으로 구성됩니다. 각 매개 변수는 숫자 (float)이며 각 시점에 대해 사소한 / 오류가없는 값이 있습니다. 내 임무는 …

2
Support Vector Machine은 여전히 ​​틈새 시장에서 "최신 기술"로 간주됩니까?
이 질문은 다른 질문에 대한 의견에 대한 답변입니다. 이 의견은 Coursera의 머신 러닝 과정 강의 계획서에 관한 것이며 "현재 SVM은 그렇게 많이 사용되지 않습니다"라는 문구를 따라 진행되었습니다. 방금 관련 강의를 마쳤으며 SVM에 대한 이해는 강력하고 효율적인 분류 알고리즘이며, 커널을 사용할 때 10 ~ 1000 개 정도의 기능을 다루는 "틈새"가 있으며 …


1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

6
빅 데이터로 SVD 및 PCA를 수행하는 방법은 무엇입니까?
대용량 데이터 세트 (약 8GB)가 있습니다. 기계 학습을 사용하여 분석하고 싶습니다. 따라서 효율성을 위해 데이터 차원을 줄이려면 SVD와 PCA를 사용해야한다고 생각합니다. 그러나 MATLAB 및 Octave는 이러한 큰 데이터 세트를로드 할 수 없습니다. 이러한 대량의 데이터로 SVD를 수행하는 데 어떤 도구를 사용할 수 있습니까?

3
지니 계수 대 지니 불순물-결정 트리
문제는 의사 결정 트리 구축과 관련이 있습니다. Wikipedia에 따르면 ' Gini coefficient '는 ' Gini impurity ' 와 혼동해서는 안됩니다 . 그러나 의사 결정 트리를 구축 할 때 두 측정 값을 모두 사용할 수 있습니다. 이는 측정 항목을 분할 할 때 선택 항목을 지원할 수 있습니다. 1) '지니 불순물'-표준 의사 …

3
왜 XGBoost와 Random Forest가 필요합니까?
몇 가지 개념에 대해서는 명확하지 않았습니다. XGBoost는 약한 학습자를 강력한 학습자로 전환합니다. 이 작업의 장점은 무엇입니까? 단일 트리를 사용하는 대신 많은 약한 학습자를 결합? 랜덤 포레스트는 트리의 다양한 샘플을 사용하여 트리를 만듭니다. 단일 트리를 사용하는 대신이 방법의 장점은 무엇입니까?


4
잠재 기능의 의미?
추천 시스템의 행렬 분해에 대해 배우고 있는데 용어가 latent features너무 자주 발생하지만 그 의미를 이해할 수 없습니다. 기능이 무엇인지 알고 있지만 잠재적 기능에 대한 아이디어를 이해하지 못합니다. 설명해 주시겠습니까? 아니면 적어도 내가 읽을 수있는 종이 / 장소를 가리켜 주시겠습니까?

4
데이터 과학은 데이터 마이닝과 동일합니까?
이 포럼에서 논의 할 데이터 과학에는 여러 데이터가 분석되는 동의어 나 최소한 관련된 필드가 있습니다. 내 특정 질문은 데이터 마이닝에 관한 것입니다. 몇 년 전에 데이터 마이닝에서 대학원 수업을 들었습니다. 데이터 과학과 데이터 마이닝의 차이점은 무엇이며 특히 데이터 마이닝에 능숙 해지려면 무엇을 더 살펴 봐야합니까?

2
계절성 또는 기타 패턴의 변화를 나타내는 시계열을 처리하는 방법은 무엇입니까?
배경 에너지 미터 판독 값의 시계열 데이터 세트를 작업 중입니다. 시리즈의 길이는 미터에 따라 다릅니다. 일부는 몇 년 동안, 다른 일부는 몇 개월에 불과합니다. 많은 사람들이 일, 주 또는 연도 내에 상당한 계절 성과 종종 여러 레이어를 표시합니다. 내가 작업 한 것 중 하나는 이러한 시계열의 클러스터링입니다. 저의 작업은 현재 …


4
단일 이벤트가 종단 데이터에 영향을 미칠 가능성을 분석하기 위해 어떤 통계 모델을 사용해야합니까
특정 이벤트가 일부 세로 데이터에 영향을 줄 가능성을 분석하는 데 사용할 수식, 방법 또는 모델을 찾으려고합니다. Google에서 무엇을 검색해야하는지 파악하기가 어렵습니다. 시나리오 예는 다음과 같습니다. 매일 평균 100 명의 고객을 보유한 업체를 소유하고 있습니다. 하루는 매일 매장에 도착하는 대형 고객 수를 늘리기로 결정하여 매장 밖에서 미친 스턴트를 끌어 당겨 주목을받습니다. …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.