«clustering» 태그된 질문

군집 분석 또는 군집화는 동일한 그룹 (클러스터라고 함)의 객체가 다른 그룹 (클러스터)의 객체와 더 유사하거나 (어떤 의미로든 다른) 객체를 그룹화하는 작업입니다. . 탐색 적 데이터 마이닝의 주요 작업이며 머신 러닝, 패턴 인식, 이미지 분석, 정보 검색 등 많은 분야에서 사용되는 통계 데이터 분석을위한 일반적인 기술입니다.

2
useragent, ip, session_id로 고유 방문자 클러스터링
session_id, ip, user_agent아래 조건 에 따라 웹 사이트 액세스 데이터 형식 과 시간 소인 (선택 사항)이 제공되면 세션을 순 방문자수로 가장 잘 클러스터링하는 방법은 무엇입니까? session_id:는 모든 새로운 방문자에게 부여 된 아이디입니다. 만료되지는 않지만 사용자가 쿠키를 허용하지 않거나 쿠키를 지우거나 브라우저를 변경하거나 장치를 변경하면 더 이상 인식되지 않습니다. IP 여러 …
15 clustering 

2
속성을 사용하여 사용자 프로필 분류 / 클러스터
웹 사이트에서 제품을 구매하는 사용자 데이터가 있습니다. 내가 가진 속성은 사용자 ID, 사용자의 지역 (주), 제품 카테고리 ID, 키워드 키워드 제품, 키워드 키워드 웹 사이트 및 판매 비용입니다. 목표는 제품 및 웹 사이트의 정보를 사용하여 "남성 젊은 게이머"또는 "집에서 엄마"와 같이 사용자가 누구인지 식별하는 것입니다. 아래 그림과 같이 샘플 사진을 …

2
10 ^ 10 포인트에 대한 알고리즘과 같은 빠른 k- 평균?
10 차원 포인트 집합에서 k- 평균 군집화를 수행하려고합니다. 캐치 : 10 ^ 10 포인트가 있습니다. 나는 가장 큰 클러스터의 중심과 크기만을 찾고 있습니다 (10 ~ 100 개의 클러스터라고합시다). 각 지점이 어떤 클러스터로 끝나는 지 상관하지 않습니다. k- 평균을 사용하는 것은 특별히 중요하지 않습니다. 나는 비슷한 효과를 찾고 있는데, 대략적인 k- …

1
퍼지 토큰 시퀀스에서 문법 인식
주로 항목 목록이 포함 된 텍스트 문서가 있습니다. 각 항목은 이름, 성, 생년월일, 전화 번호, 도시, 직업 등 여러 유형의 여러 토큰 그룹입니다. 토큰은 단어 그룹입니다. 항목은 여러 줄에있을 수 있습니다. 문서의 항목은 거의 동일한 토큰 구문을 갖지만 반드시 반드시 동일 할 필요는 없습니다. 그것들은 아이템들 사이뿐만 아니라 아이템들 사이에 …

1
2 가지 기능과 일련의 이벤트를 기반으로 고객 분류
내가 설계하고있는 알고리즘에서 다음 단계가 무엇인지에 대한 도움이 필요합니다. NDA로 인해 많은 것을 공개 할 수는 없지만 일반적이고 이해할 수 있도록 노력할 것입니다. 기본적으로 알고리즘의 여러 단계 후에 다음과 같은 결과가 있습니다. 내가 보유한 각 고객과 한 달 동안 수행하는 이벤트에 대해 첫 번째 단계에서 이벤트를 여러 범주로 클러스터링했습니다 (각 …

1
MinHashing 및 SimHashing
클러스터링하려는 5 개 세트가 있다고 가정합니다. SimHashing 기술이 여기에 설명되어 있음을 이해합니다. https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ 예를 들어 결과가 다음과 같은 경우 세 개의 클러스터 ( {A}, {B,C,D}및 {E})를 생성 할 수 있습니다 . A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 마찬가지로 MMDS 책의 3 …

1
몇 개의 LSTM 셀을 사용해야합니까?
사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

1
지속적인 온라인 클러스터 식별 솔루션?
가상 온라인 클러스터링 응용 프로그램의 예를 보여 드리겠습니다. 시간 n에서 포인트 1,2,3,4는 청색 클러스터 A에 할당되고 포인트 b, 5,6,7은 적색 클러스터 B에 할당됩니다. 시간 n + 1에서, 파란색 점 A에 할당 된 새로운 점 a가 도입되지만, 점 b도 파란색 군집 A에 지정됩니다. 끝점 1,2,3,4, a, b는 A에 속하고 5,6,7은 B에 …

4
텍스트 처리에서 클러스터링 사용
안녕하세요, 이것은 데이터 과학 스택의 첫 번째 질문입니다. 텍스트 분류를위한 알고리즘을 만들고 싶습니다. 많은 텍스트와 기사가 있다고 가정하십시오. 약 5000 개의 일반 텍스트를 말할 수 있습니다. 먼저 간단한 함수를 사용하여 4 개 이상의 문자 단어의 빈도를 결정합니다. 그런 다음이를 각 교육 샘플의 기능으로 사용합니다. 이제 알고리즘이 기능에 따라 훈련 세트를 …

3
과학 컴퓨팅을위한 최고의 언어
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
Hartigan-Wong k-means 방법 및 기타 알고리즘의 수렴
나는 주로 언어 stats패키지로 구현되는 다른 k- 평균 군집 알고리즘을 이해하려고 노력했다 R. Lloyd의 알고리즘과 MacQueen의 온라인 알고리즘을 이해합니다. 내가 이해하는 방법은 다음과 같습니다. 로이드의 알고리즘 : 처음에는 'k'군집의 중심으로 작용할 'k'임의 관측치가 선택됩니다. 그런 다음 중심이 수렴 할 때까지 다음 단계가 반복됩니다. 각 관측치와 선택된 중심 사이의 유클리드 거리가 …
10 r  clustering  k-means 

3
로그 파일 분석 : 가치 부분에서 정보 부분 추출
우리 제품 중 하나의 여러 로그 파일에 데이터 세트를 작성하려고합니다. 다른 로그 파일에는 고유 한 레이아웃과 내용이 있습니다. 나는 성공적으로 그룹화했으며 한 단계 만 남았습니다 ... 실제로 "메시지"로그가 최상의 정보입니다. 모든 메시지의 전체 목록을 가지고 있지는 않으며 매일 목록을 변경할 수 있기 때문에 하드 코드를 기반으로 하드 코드를 작성하는 것은 …

1
ElasticSearch에 저장된 고객 데이터 클러스터링
고객 프로필에 저장되어 있습니다. 탄성 검색클러스터. 이 프로파일은 이제 이메일 구독을위한 대상 그룹을 만드는 데 사용됩니다. 대상 그룹은 이제 탄력적 검색면 검색 기능을 사용하여 수동으로 구성됩니다 (예 : 자동차 한 대와 어린이 세 대를 가진 23 세의 모든 남성 고객 확보). 데이터 과학, 기계 학습, 클러스터링 등을 사용하여 흥미로운 그룹을 …

2
Latent Dirichlet Allocation에서 파생 된 주제를 사용한 문서 클러스터링
프로젝트에 Latent Dirichlet Allocation을 사용하고 gensim 라이브러리와 함께 Python을 사용하고 있습니다. 주제를 찾은 후 k-means와 같은 알고리즘을 사용하여 문서를 클러스터링하고 싶습니다 (이상적으로는 클러스터를 겹치기에 좋은 것을 사용하여 권장 사항을 환영합니다). 주제를 얻었지만 다음과 같은 형식입니다. 0.041 * Minister + 0.041 * Key + 0.041 * moments + 0.041 * 논란 …

4
텍스트 분류기 교육 데이터 세트 제안
텍스트 분류기를 훈련시키기 위해 어떤 무료 데이터 집합을 사용할 수 있습니까? Google은 사용자에게 가장 관련성 높은 콘텐츠를 추천하여 사용자 참여를 향상 시키려고 노력하고 있으므로 미리 정의 된 단어 모음을 기반으로 콘텐츠를 분류하는 경우 이미 분류 된 임의의 게시물 수에 대한 피드백을 통해 콘텐츠를 참여시키는 것이 좋습니다. 전에. 이 정보를 사용하여 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.