«bigdata» 태그된 질문

빅 데이터는 규모가 크고 복잡한 데이터 집합을 지칭하는 용어로, 실제 데이터베이스 관리 도구 또는 기존의 데이터 처리 응용 프로그램을 사용하여 처리하기가 어렵습니다. 문제는 캡처, 큐 레이션, 스토리지, 검색, 공유, 전송, 분석 및 시각화입니다.

12
빅 데이터는 얼마나 큰가요?
많은 사람들이 빅 데이터 라는 용어를 다소 상업적인 방식으로 사용하는데, 이는 큰 데이터 세트가 계산에 관련되어 있음을 나타 내기위한 수단이므로 잠재적 솔루션의 성능이 우수해야합니다. 물론 빅 데이터는 항상 확장 성 및 효율성과 같은 관련 용어를 사용하지만 문제를 빅 데이터 문제 로 정확히 정의하는 것은 무엇 입니까? 계산은 데이터 마이닝 / …

9
R 언어가 빅 데이터에 적합합니까?
R에는 데이터 분석 (예 : JAGS, BUGS, ARULES 등)을 목표로하는 많은 라이브러리가 있으며 J.Krusche, Doing Bayesian Data Analysis; B.Lantz, "R을 이용한 기계 학습". 데이터 세트가 빅 데이터로 간주되는 5TB의 지침을 보았습니다. 내 질문은 : R은 일반적으로 빅 데이터 문제에서 볼 수있는 데이터의 양에 적합합니까? 이 크기의 데이터 집합에 R을 사용할 …
48 bigdata  r 

9
대량의 (이진) 데이터의 버전 제어를 처리하는 방법
저는 지구 물리학 박사 학위를 받았으며 많은 양의 이미지 데이터 (수백 GB, 수만 개의 파일)를 다루고 있습니다. 나도 svn과 git상당히 잘 함께 쉽게 작업 할 수있는 기능과 함께 프로젝트 역사를 소중히 디스크 손상에 대한 보호를 갖게. 내가 찾아 git도 일관된 백업을 가진 매우 유용하지만 난 그 자식 효율적 이진 많은 …

11
C (또는 C ++)의 데이터 과학
저는 R언어 프로그래머입니다. 나는 또한 데이터 과학자로 간주되지만 CS 이외의 학문 분야에서 온 사람들의 그룹에 있습니다. 이것은 데이터 과학자로서의 역할에서 잘 작동하지만 R다른 스크립팅 / 웹 언어에 대한 기본 지식 만 가지고 경력을 시작함으로써 두 가지 주요 영역에서 다소 부적절하다고 느꼈습니다. 프로그래밍 이론에 대한 확실한 지식이 부족합니다. 경쟁과 같은보다 빠르고 …


5
팬더로 분석하기 위해 20GB 파일 열기
현재 머신 러닝 목적으로 팬더와 파이썬으로 파일을 열려고합니다. 데이터 프레임에 모두 넣는 것이 이상적입니다. 이제 파일 크기는 18GB이고 RAM은 32GB이지만 메모리 오류가 계속 발생합니다. 당신의 경험에서 가능합니까? 이 문제를 해결하는 더 좋은 방법을 모르십니까? (하이브 테이블? RAM의 크기를 64로 늘리십시오. 데이터베이스를 만들고 파이썬에서 액세스하십시오)

1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

6
빅 데이터로 SVD 및 PCA를 수행하는 방법은 무엇입니까?
대용량 데이터 세트 (약 8GB)가 있습니다. 기계 학습을 사용하여 분석하고 싶습니다. 따라서 효율성을 위해 데이터 차원을 줄이려면 SVD와 PCA를 사용해야한다고 생각합니다. 그러나 MATLAB 및 Octave는 이러한 큰 데이터 세트를로드 할 수 없습니다. 이러한 대량의 데이터로 SVD를 수행하는 데 어떤 도구를 사용할 수 있습니까?

3
데이터 과학 프로젝트 아이디어 [닫기]
폐쇄되었습니다 . 이 질문은 의견 기반 입니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 사실과 인용으로 답변 할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 이것이이 질문을하기에 적합한 장소인지는 모르겠지만 Data Science 전담 커뮤니티가 제 생각에 가장 적합한 장소 여야합니다. 방금 데이터 과학 …

4
거대한 데이터를 위해 파이썬에서 t-sne 구현 속도 향상
200 치수 ( doc2vec)를 가진 거의 백만 개의 벡터에서 차원 축소를하고 싶습니다 . 모듈 TSNE에서 구현을 사용 sklearn.manifold하고 있으며 주요 문제는 시간 복잡성입니다. 로도 method = barnes_hut계산 속도는 여전히 느립니다. 언젠가는 심지어 메모리가 부족합니다. 130G RAM의 48 코어 프로세서에서 실행 중입니다. 병렬로 실행하거나 많은 리소스를 사용하여 프로세스 속도를 높이는 방법이 …

2
의미 분석을 위해 빅 데이터에 liblinear 사용
나는 의미 분석 문제 에 대한 데이터를 훈련시키고 분류를 예측하기 위해 Libsvm 을 사용 합니다. 그러나 의미 론적 분석이 n 차원 문제와 관련되어 있기 때문에 대규모 데이터 의 성능 문제가 있습니다. 작년에 Liblinear 는 출시되었으며 성능 병목 현상을 해결할 수 있습니다. 그러나 메모리 비용이 너무 많이 듭니다 . 가 맵리 …

5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 


4
예를 들어 인프라 스택 / 워크 플로우 / 파이프 라인
hadoop, monogodb / nosql, storm, kafka와 같은 실제 사용 사례에서 모든 "빅 데이터"구성 요소가 함께 작동하는 방식을 이해하려고 노력 중입니다. ... 앱, 웹앱, 온라인 상점에 대한 머신 러닝 학습과 같은 애플리케이션에서의 상호 작용에 대해 더 자세히 알고 싶습니다. 나는 vistors / session, transaction data 등을 가지고 있고 그것을 저장한다; 그러나 …

3
p- 값은 언제 사기입니까?
p- 값이 통계적 유의성을 결정하는 가장 좋은 방법이 아닐 수있는주의해야 할 데이터 조건은 무엇입니까? 이 범주에 속하는 특정 문제 유형이 있습니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.