«clustering» 태그된 질문

군집 분석 또는 군집화는 동일한 그룹 (클러스터라고 함)의 객체가 다른 그룹 (클러스터)의 객체와 더 유사하거나 (어떤 의미로든 다른) 객체를 그룹화하는 작업입니다. . 탐색 적 데이터 마이닝의 주요 작업이며 머신 러닝, 패턴 인식, 이미지 분석, 정보 검색 등 많은 분야에서 사용되는 통계 데이터 분석을위한 일반적인 기술입니다.

13
혼합 숫자 및 범주 형 데이터에 대한 K- 평균 군집
내 데이터 세트에는 많은 숫자 속성과 하나의 범주가 있습니다. , 말 NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, 여기서,이 CategoricalAttr세 개의 가능한 값 중 하나를 취 CategoricalAttrValue1, CategoricalAttrValue2또는 CategoricalAttrValue3. Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/에 대한 기본 k- 평균 군집 알고리즘 구현을 사용하고 있습니다 . 숫자 데이터로만 작동합니다. 그래서 내 질문 : 범주 속성 CategoricalAttr을 세 …

8
클러스터링 지리적 위치 좌표 (lat, long pairs)
지리적 위치 클러스터링에 대한 올바른 접근 방법 및 클러스터링 알고리즘은 무엇입니까? 다음 코드를 사용하여 지리적 위치 좌표를 클러스터링합니다. import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], …


1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
클러스터링하기 전에 데이터를 표준화해야합니까?
클러스터 전에 데이터를 표준화해야합니까? 의 예에서 scikit learnDBSCAN에 대한, 여기에 그들은 라인에서이 작업을 수행 : X = StandardScaler().fit_transform(X) 그러나 왜 필요한지 이해하지 못합니다. 결국 클러스터링은 데이터의 특정 분포를 가정하지 않습니다. 감독되지 않은 학습 방법이므로 목표는 데이터를 탐색하는 것입니다. 왜 데이터를 변환해야합니까?

3
K는 팔꿈치 방법, BIC, 분산 설명 및 실루엣으로 K를 선택하는 일관성없는 동작을 의미합니다.
K- 평균으로 90 개의 특징을 가진 일부 벡터를 클러스터하려고합니다. 이 알고리즘은 클러스터의 수를 묻기 때문에 좋은 수학으로 내 선택을 확인하고 싶습니다. 8 개에서 10 개의 클러스터가있을 것으로 예상합니다. 기능은 Z- 점수 스케일입니다. 팔꿈치 방법 및 분산 설명 from scipy.spatial.distance import cdist, pdist from sklearn.cluster import KMeans K = range(1,50) KM …

5
파이썬에서 KL 분기 계산
나는 이것에 익숙하지 않으며 이것 뒤에 이론적 개념을 완전히 이해하고 있다고 말할 수 없습니다. 파이썬에서 여러 포인트 목록 사이의 KL 분기를 계산하려고합니다. 이것을 시도하기 위해 http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html 을 사용 하고 있습니다. 내가 겪고있는 문제는 반환 된 값이 두 숫자 목록 (1.3862943611198906)과 동일하다는 것입니다. 나는 여기서 어떤 종류의 이론적 실수를 저지르고 있지만 …

2
계절성 또는 기타 패턴의 변화를 나타내는 시계열을 처리하는 방법은 무엇입니까?
배경 에너지 미터 판독 값의 시계열 데이터 세트를 작업 중입니다. 시리즈의 길이는 미터에 따라 다릅니다. 일부는 몇 년 동안, 다른 일부는 몇 개월에 불과합니다. 많은 사람들이 일, 주 또는 연도 내에 상당한 계절 성과 종종 여러 레이어를 표시합니다. 내가 작업 한 것 중 하나는 이러한 시계열의 클러스터링입니다. 저의 작업은 현재 …


5
문장 유사성을위한 가장 실용적인 알고리즘
나는 S1과 S2의 두 문장을 가지고 있는데, 둘 다 단어 수가 (일반적으로) 15 미만입니다. 구현하기 쉬운 가장 실질적으로 유용하고 성공적인 (머신 러닝) 알고리즘은 무엇입니까 (아키텍처가 Google Inception 등과 같이 복잡하지 않으면 신경망은 괜찮습니다). 너무 많은 시간을 투자하지 않고 잘 작동하는 알고리즘을 찾고 있습니다. 성공적이고 사용하기 쉬운 알고리즘이 있습니까? 이는 클러스터링 …


1
텍스트 클러스터링 알고리즘
의미에 따라 많은 양의 문장을 그룹으로 묶는 데 문제가 있습니다. 이것은 문장이 많고 그 의미를 기준으로 그룹화하려는 경우의 문제와 유사합니다. 이를 위해 어떤 알고리즘이 제안됩니까? 나는 미리 많은 수의 클러스터를 알지 못하고 (더 많은 데이터가 나올수록 클러스터가 변경 될 수 있음) 각 문장을 나타내는 데 일반적으로 어떤 기능이 사용됩니까? 이제 …

4
유사성 점수를 기반으로 한 클러스터링
두 요소 ei, ej ∈ E 사이 에 요소 E 와 유사성 ( 거리가 아닌 ) 함수 sim (ei, ej) 가 있다고 가정합니다 . sim을 사용하여 E 의 요소를 어떻게 효율적으로 클러스터링 할 수 있습니까? k는 예를 들면, 소정의 요구 -means k는 캐노피 클러스터링 개의 임계치를 필요로한다. 사전 정의 된 …

5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
K- 평균 대 온라인 K- 평균
K- 평균 은 클러스터링을위한 잘 알려진 알고리즘이지만 이러한 알고리즘의 온라인 변형 (온라인 K- 평균)도 있습니다. 이러한 접근법의 장단점은 무엇이며 각각 선호하는시기는 언제입니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.