«k-means» 태그된 질문

k- 평균은 예상되는 군집 수를 지정하는 군집 분석 방법 모음입니다. 이것은 계층 적 클러스터 분석 방법과 반대입니다.

13
혼합 숫자 및 범주 형 데이터에 대한 K- 평균 군집
내 데이터 세트에는 많은 숫자 속성과 하나의 범주가 있습니다. , 말 NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, 여기서,이 CategoricalAttr세 개의 가능한 값 중 하나를 취 CategoricalAttrValue1, CategoricalAttrValue2또는 CategoricalAttrValue3. Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/에 대한 기본 k- 평균 군집 알고리즘 구현을 사용하고 있습니다 . 숫자 데이터로만 작동합니다. 그래서 내 질문 : 범주 속성 CategoricalAttr을 세 …

8
클러스터링 지리적 위치 좌표 (lat, long pairs)
지리적 위치 클러스터링에 대한 올바른 접근 방법 및 클러스터링 알고리즘은 무엇입니까? 다음 코드를 사용하여 지리적 위치 좌표를 클러스터링합니다. import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], …

1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
K는 팔꿈치 방법, BIC, 분산 설명 및 실루엣으로 K를 선택하는 일관성없는 동작을 의미합니다.
K- 평균으로 90 개의 특징을 가진 일부 벡터를 클러스터하려고합니다. 이 알고리즘은 클러스터의 수를 묻기 때문에 좋은 수학으로 내 선택을 확인하고 싶습니다. 8 개에서 10 개의 클러스터가있을 것으로 예상합니다. 기능은 Z- 점수 스케일입니다. 팔꿈치 방법 및 분산 설명 from scipy.spatial.distance import cdist, pdist from sklearn.cluster import KMeans K = range(1,50) KM …


5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
K- 평균 대 온라인 K- 평균
K- 평균 은 클러스터링을위한 잘 알려진 알고리즘이지만 이러한 알고리즘의 온라인 변형 (온라인 K- 평균)도 있습니다. 이러한 접근법의 장단점은 무엇이며 각각 선호하는시기는 언제입니까?

2
10 ^ 10 포인트에 대한 알고리즘과 같은 빠른 k- 평균?
10 차원 포인트 집합에서 k- 평균 군집화를 수행하려고합니다. 캐치 : 10 ^ 10 포인트가 있습니다. 나는 가장 큰 클러스터의 중심과 크기만을 찾고 있습니다 (10 ~ 100 개의 클러스터라고합시다). 각 지점이 어떤 클러스터로 끝나는 지 상관하지 않습니다. k- 평균을 사용하는 것은 특별히 중요하지 않습니다. 나는 비슷한 효과를 찾고 있는데, 대략적인 k- …

3
파이썬에 적합한 기본 언어 모델이 있습니까?
응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
Hartigan-Wong k-means 방법 및 기타 알고리즘의 수렴
나는 주로 언어 stats패키지로 구현되는 다른 k- 평균 군집 알고리즘을 이해하려고 노력했다 R. Lloyd의 알고리즘과 MacQueen의 온라인 알고리즘을 이해합니다. 내가 이해하는 방법은 다음과 같습니다. 로이드의 알고리즘 : 처음에는 'k'군집의 중심으로 작용할 'k'임의 관측치가 선택됩니다. 그런 다음 중심이 수렴 할 때까지 다음 단계가 반복됩니다. 각 관측치와 선택된 중심 사이의 유클리드 거리가 …
10 r  clustering  k-means 
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.