«databases» 태그된 질문

편리한 액세스를 위해 구성된 포괄적 인 관련 데이터 모음으로, 일반적으로 데이터를 업데이트하고 쿼리하는 소프트웨어와 연결됩니다.

9
대량의 (이진) 데이터의 버전 제어를 처리하는 방법
저는 지구 물리학 박사 학위를 받았으며 많은 양의 이미지 데이터 (수백 GB, 수만 개의 파일)를 다루고 있습니다. 나도 svn과 git상당히 잘 함께 쉽게 작업 할 수있는 기능과 함께 프로젝트 역사를 소중히 디스크 손상에 대한 보호를 갖게. 내가 찾아 git도 일관된 백업을 가진 매우 유용하지만 난 그 자식 효율적 이진 많은 …

3
Python 머신 러닝 모델을 저장하는 모범 사례
머신 러닝 모델을 저장, 저장 및 공유하는 모범 사례는 무엇입니까? 파이썬에서는 일반적으로 pickle 또는 joblib을 사용하여 모델의 이진 표현을 저장합니다. 필자의 경우 모델은 ~ 100Mo 크기 일 수 있습니다. 또한 joblib은 설정하지 않는 한 하나의 모델을 여러 파일에 저장할 수 있습니다 compress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre ). 그러나 모델에 대한 액세스 권한을 …


5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
Neo4j vs OrientDB vs 타이탄
사회적 관계 마이닝과 관련된 데이터 과학 프로젝트를 진행 중이며 일부 그래프 데이터베이스에 데이터를 저장해야합니다. 처음에는 Neo4j를 데이터베이스로 선택했습니다. 그러나 Neo4j는 잘 확장되지 않습니다. 내가 찾은 대안은 Titan과 oriebtDB입니다. 내가 겪었 이 이 세 가지 데이터베이스에 비교,하지만 이러한 데이터베이스에 대한 자세한 내용을 좀하고 싶습니다. 그래서 가장 좋은 것을 선택하는 데 도움이 …


5
일반 관계형 데이터베이스에 대한 팬더 데이터 프레임의 장점
데이터 과학에서 많은 사람들이 팬더 데이터 프레임을 데이터 저장소로 사용하는 것 같습니다 . 팬더의 특징은 다른 많은 프로그래밍 분야에 데이터를 저장하는 데 사용되는 MySQL 과 같은 일반적인 관계형 데이터베이스 와 비교하여 우수한 데이터 저장소로 만드는 것 입니까? 팬더는 데이터 탐색에 유용한 기능을 제공하지만 SQL을 사용할 수 없으며 쿼리 최적화 또는 …
13 pandas  databases 

3
n- 그램으로 색인 된 데이터를 저장하기위한 효율적인 데이터베이스 모델
큰 텍스트 모음에 존재하는 매우 큰 n-gram 데이터베이스를 만들어야하는 응용 프로그램을 작성 중입니다. 효율적인 3 가지 연산 유형이 필요합니다 : n-gram 자체에 의해 색인 된 검색 및 삽입, sub-n-gram을 포함하는 모든 n-gram을 쿼리합니다. 데이터베이스가 거대한 문서 트리 여야하고 Mongo와 같은 문서 데이터베이스가 작업을 잘 수행 할 수 있어야하는 것처럼 들리지만 …
12 nlp  databases 

3
과학 컴퓨팅을위한 최고의 언어
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
큰 JSON 데이터 세트에서 PostgreSQL과 MongoDB 중 어느 것이 더 빠릅니까?
나는 ~ 300 바이트의 9m JSON 객체로 큰 데이터 세트를 가지고 있습니다. 기본적으로 링크 (URL, 제목 및 작성자 ID) 및 설명 (텍스트 및 작성자 ID) + 메타 데이터 인 링크 애그리 게이터의 게시물입니다. 하위 레코드를 가리키는 ID를 가진 하나의 배열 필드가 있다는 사실을 제외하고는 테이블에서 관계형 레코드 일 수 있습니다. …

2
이 Neo4j와 RDBMS 실행 시간의 비교가 정확합니까?
배경 : 다음은 Graph Databases 책에서 발췌 한 것으로 Neo4j 책에서 언급 된 성능 테스트를 다룹니다 . 그래프의 관계는 자연스럽게 경로를 형성합니다. 그래프 조회 또는 순회는 다음 경로를 포함합니다. 데이터 모델의 근본적인 경로 지향적 특성으로 인해 대부분의 경로 기반 그래프 데이터베이스 작업은 데이터가 배치되는 방식과 밀접하게 연계되어있어 매우 효율적입니다. 파트너와 …
10 databases  nosql  neo4j 

2
스마트 폰 데이터 세트 문제를 이용한 인간 활동 인식
저는이 커뮤니티를 처음 사용하므로 제 질문이 여기에 잘 맞기를 바랍니다. 학부 데이터 분석 과정의 일환으로 스마트 폰 데이터 세트를 사용하여 인간 활동 인식 프로젝트를 선택했습니다. 내가 우려하는 한이 주제는 기계 학습 및 지원 벡터 기계와 관련이 있습니다. 아직이 기술에 익숙하지 않으므로 도움이 필요합니다. 이 프로젝트 아이디어를 따르기로 결정했습니다 http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html (위의 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.