«data-mining» 태그된 질문

크고 복잡한 데이터 세트에서 패턴을 찾는 활동입니다. 일반적으로 알고리즘 기법을 강조하지만 해당 목표를 가진 관련 기술, 응용 프로그램 또는 방법론을 포함 할 수도 있습니다.


5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
불균형하고 이질적인 부정적인 배경을 가진 일류 차별 분류?
{protein} 서열을 특정 클래스 (Neuropeptide hormone 전구체)에 속하는지 분류하기 위해 기존의 감독 된 분류기를 개선하기 위해 노력하고 있습니다. 약 1,150 만 개의 단백질 서열의 배경 ( "알려지지 않은 / 나쁜 주석이 달린 배경")에 대해 약 1,150 개의 알려진 "양성"또는 다양한 속성으로 주석이 달린 약 10 만 개의 검토 된 관련 …

2
Mahout의 항목 기반 및 사용자 기반 권장 사항 차이
사용자 기반과 항목 기반 권장 사항이 정확히 어떻게 다른지 알고 싶습니다. 그것은 정의 사용자 기반 : 유사한 사용자를 찾아 항목을 추천합니다. 사용자의 동적 특성으로 인해 확장이 어려운 경우가 많습니다. 아이템 기반 : 아이템 간의 유사성을 계산하고 추천합니다. 일반적으로 항목은 많이 변경되지 않으므로 오프라인으로 계산할 수 있습니다. 그러나 두 가지 종류의 …

4
의사 결정 트리 대 KNN
어떤 경우에는 의사 결정 트리를 사용하고 다른 경우에는 KNN을 사용하는 것이 더 낫습니까? 특정 경우에 왜 그중 하나를 사용합니까? 그리고 다른 경우에 다른? (알고리즘이 아닌 기능을 보면) 누구든지 이것에 대한 설명이나 언급이 있습니까?


2
속성을 사용하여 사용자 프로필 분류 / 클러스터
웹 사이트에서 제품을 구매하는 사용자 데이터가 있습니다. 내가 가진 속성은 사용자 ID, 사용자의 지역 (주), 제품 카테고리 ID, 키워드 키워드 제품, 키워드 키워드 웹 사이트 및 판매 비용입니다. 목표는 제품 및 웹 사이트의 정보를 사용하여 "남성 젊은 게이머"또는 "집에서 엄마"와 같이 사용자가 누구인지 식별하는 것입니다. 아래 그림과 같이 샘플 사진을 …

1
퍼지 토큰 시퀀스에서 문법 인식
주로 항목 목록이 포함 된 텍스트 문서가 있습니다. 각 항목은 이름, 성, 생년월일, 전화 번호, 도시, 직업 등 여러 유형의 여러 토큰 그룹입니다. 토큰은 단어 그룹입니다. 항목은 여러 줄에있을 수 있습니다. 문서의 항목은 거의 동일한 토큰 구문을 갖지만 반드시 반드시 동일 할 필요는 없습니다. 그것들은 아이템들 사이뿐만 아니라 아이템들 사이에 …

1
Neo4j vs OrientDB vs 타이탄
사회적 관계 마이닝과 관련된 데이터 과학 프로젝트를 진행 중이며 일부 그래프 데이터베이스에 데이터를 저장해야합니다. 처음에는 Neo4j를 데이터베이스로 선택했습니다. 그러나 Neo4j는 잘 확장되지 않습니다. 내가 찾은 대안은 Titan과 oriebtDB입니다. 내가 겪었 이 이 세 가지 데이터베이스에 비교,하지만 이러한 데이터베이스에 대한 자세한 내용을 좀하고 싶습니다. 그래서 가장 좋은 것을 선택하는 데 도움이 …

4
빅 데이터 사례 연구 또는 사용 사례
다양한 유형의 산업에서 Big Data Analytic을 사용하는 방법에 대한 블로그 / 기사를 많이 읽었습니다. 그러나이 기사의 대부분은 언급하지 않습니다 이 회사들은 어떤 종류의 데이터를 사용 했습니까? 데이터의 크기는 얼마입니까 데이터를 처리하는 데 사용한 도구 기술 그들이 직면 한 문제는 무엇이며 데이터를 얻는 통찰력으로 문제를 해결하는 데 도움이되었습니다. 그들이 자신의 필요에 …


2
종이 초록을 크롤링하는 API가 있습니까?
매우 긴 종이 이름 목록을 가지고 있다면 인터넷이나 데이터베이스에서이 종이의 초록을 어떻게 얻을 수 있습니까? 논문 이름은 "공공 건강 영역을위한 웹 마이닝 유틸리티 평가"와 같습니다. 아무도 나에게 해결책을 줄 수있는 API를 알고 있습니까? Google 학자를 크롤링하려고했지만 Google이 내 크롤러를 차단했습니다.

2
항공 요금-경쟁력있는 가격 결정 동작과 가격 상관 관계를 탐지하기 위해 어떤 분석을 사용해야합니까?
항공사의 가격 결정 동작, 특히 항공사가 경쟁사 가격에 반응하는 방식을 조사하고 싶습니다. 더 복잡한 분석에 대한 내 지식은 상당히 제한적이라고 말하지만 데이터의 전체적인 관점을 수집하기 위해 대부분 기본 방법을 모두 사용했습니다. 여기에는 유사한 패턴을 식별하는 데 도움이되는 간단한 그래프가 포함됩니다. SAS Enterprise 9.4도 사용하고 있습니다. 그러나 나는 더 많은 숫자 …

2
FPGrowth는 자주 패턴 마이닝에서 "최신 기술"로 간주됩니까?
FMF (Frequent Pattern Mining) 문제를 해결하기위한 알고리즘 개발을 알고있는 한, 개선의 길에는 몇 가지 주요 체크 포인트가 있습니다. 먼저, Apriori 알고리즘은 Agrawal et al.에 의해 1993 년에 제안되었다 . 문제의 공식화와 함께. 알고리즘은 데이터를 유지하기 위해 격자를 사용하여 세트 (파워 세트)에서 일부 세트 를 제거 할 수있었습니다 2^n - 1. …

2
임의 포리스트 분류에 범주 형 데이터 유형을 맞추려면 어떻게해야합니까?
Random Forest Algorithm을 적용하여 훈련 데이터 세트의 정확성을 찾아야합니다. 그러나 내 데이터 세트 유형은 범주 및 숫자입니다. 해당 데이터를 맞추려고 할 때 오류가 발생합니다. '입력에 NaN, 무한대 또는 dtype ('float32 ')에 비해 너무 큰 값이 있습니다.' 개체 데이터 형식에 문제가있을 수 있습니다. RF 적용을 위해 변환하지 않고 범주 형 데이터를 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.