«bigdata» 태그된 질문

빅 데이터는 규모가 크고 복잡한 데이터 집합을 지칭하는 용어로, 실제 데이터베이스 관리 도구 또는 기존의 데이터 처리 응용 프로그램을 사용하여 처리하기가 어렵습니다. 문제는 캡처, 큐 레이션, 스토리지, 검색, 공유, 전송, 분석 및 시각화입니다.

8
파이썬이 빅 데이터에 적합합니까?
이 글에서 읽은 것은 빅 데이터가 구성하는 빅 데이터에 적합한 R 언어5TB 이며, 이러한 유형의 데이터로 작업 할 가능성에 대한 정보를 제공하는 것은 훌륭 R하지만 정보는 거의 제공하지 않습니다 Python. Python이 많은 데이터로도 작업 할 수 있는지 궁금합니다 .
14 bigdata  python 


4
빅 데이터 사례 연구 또는 사용 사례
다양한 유형의 산업에서 Big Data Analytic을 사용하는 방법에 대한 블로그 / 기사를 많이 읽었습니다. 그러나이 기사의 대부분은 언급하지 않습니다 이 회사들은 어떤 종류의 데이터를 사용 했습니까? 데이터의 크기는 얼마입니까 데이터를 처리하는 데 사용한 도구 기술 그들이 직면 한 문제는 무엇이며 데이터를 얻는 통찰력으로 문제를 해결하는 데 도움이되었습니다. 그들이 자신의 필요에 …

4
word2vec 모델을 훈련하는 동안 전이 학습을 이용할 수 있습니까?
Google 뉴스 데이터 와 같이 이미 훈련 된 모델의 사전 훈련 된 가중치를 찾고 있습니다 . 충분한 양 (10GB 등)의 데이터로 새로운 모델을 훈련하는 것이 어렵다는 것을 알게되었습니다. 따라서 사전 학습 된 레이어 가중치를 얻고 도메인 별 단어에서 해당 가중치를 재교육 할 수있는 전송 학습의 이점을 원합니다. 따라서 교육에 소요되는 …

7
데이터 과학자의 '이전 이름'은 무엇입니까?
'데이터 과학'및 '데이터 과학자'와 같은 용어가 점점 더 많이 사용되고 있습니다. 많은 회사들이 '데이터 과학자'를 고용하고 있습니다. 그러나 나는 그것이 완전히 새로운 직업이라고 생각하지 않습니다. 과거의 데이터가 존재했으며 누군가 데이터를 처리해야했습니다. '데이터 과학자'라는 용어가 더 화려하고 '섹시하게'들리기 때문에 인기가 높아진 것 같습니다. 과거에 데이터 과학자들은 어떻게 불려왔습니까?
12 bigdata 

2
기본 설정 일치 알고리즘
다음 문제에 대한 솔루션을 구조화 해야하는이 측면 프로젝트가 있습니다. 나는 두 그룹의 사람들 (고객)이 있습니다. 그룹 A은 B결정된 제품 을 사고, 그룹 은 판매하려고합니다 X. 이 제품은 속성의 시리즈를 가지고 x_i, 내 목표는 사이의 거래 촉진하는 것이다 A하고 B자신의 환경 설정을 일치하여입니다. 주요 아이디어는 제품이 그의 요구에 더 잘 맞는 …

2
Storm과 Hadoop 간의 상충 관계 (MapReduce)
누군가가 데이터 처리를 위해 Hadoop Cluster에서 Storm과 MapReduce를 선택할 때 관련된 트레이드 오프에 대해 친절하게 말해 줄 수 있습니까? 물론 Hadoop (Hadoop 클러스터에서 MapReduce를 통한 처리)은 일괄 처리 시스템이고 Storm은 실시간 처리 시스템이라는 것이 명백합니다. Hadoop Eco System에서 약간 작업했지만 Storm에서는 작업하지 않았습니다. 많은 프레젠테이션과 기사를 검토 한 후에도 여전히 …

3
큰 데이터베이스에 대한 쿼리는 무시할 수있는 대기 시간으로 어떻게 반환됩니까?
예를 들어 Google에서 무언가를 검색하면 결과가 거의 즉시 반환됩니다. Google은 알고리즘 등을 사용하여 페이지를 정렬하고 색인을 생성하지만 가능한 모든 단일 쿼리의 결과를 색인화하는 것은 불가능하다고 생각합니다 (결과는 개인화되어 더 불가능합니다). 또한 Google 하드웨어의 하드웨어 대기 시간이 크지 않습니까? Google의 데이터가 모두 TB / s SSD에 저장되어 있어도 처리해야 할 데이터의 …
12 bigdata  google  search 

1
몇 개의 LSTM 셀을 사용해야합니까?
사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
FPGrowth는 자주 패턴 마이닝에서 "최신 기술"로 간주됩니까?
FMF (Frequent Pattern Mining) 문제를 해결하기위한 알고리즘 개발을 알고있는 한, 개선의 길에는 몇 가지 주요 체크 포인트가 있습니다. 먼저, Apriori 알고리즘은 Agrawal et al.에 의해 1993 년에 제안되었다 . 문제의 공식화와 함께. 알고리즘은 데이터를 유지하기 위해 격자를 사용하여 세트 (파워 세트)에서 일부 세트 를 제거 할 수있었습니다 2^n - 1. …

4
HPC 클러스터 작업
우리 대학에는 HPC 컴퓨팅 클러스터가 있습니다. 클러스터를 사용하여 분류 자 ​​등을 교육합니다. 따라서 일반적으로 작업을 클러스터로 보내려면 (예 : python scikit-learn 스크립트)와 같은 명령을 포함하는 Bash 스크립트를 작성해야합니다 qsub script.py. 그러나 나는이 과정이 매우 실망 스럽다는 것을 안다. 일반적으로 노트북에 파이썬 스크립트를 작성한 다음 서버에 로그인하여 SVN 저장소를 업데이트하므로 동일한 …

3
과학 컴퓨팅을위한 최고의 언어
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
큰 JSON 데이터 세트에서 PostgreSQL과 MongoDB 중 어느 것이 더 빠릅니까?
나는 ~ 300 바이트의 9m JSON 객체로 큰 데이터 세트를 가지고 있습니다. 기본적으로 링크 (URL, 제목 및 작성자 ID) 및 설명 (텍스트 및 작성자 ID) + 메타 데이터 인 링크 애그리 게이터의 게시물입니다. 하위 레코드를 가리키는 ID를 가진 하나의 배열 필드가 있다는 사실을 제외하고는 테이블에서 관계형 레코드 일 수 있습니다. …

2
확장 가능한 이상치 / 이상 탐지
Hadoop, Hive, Elastic Search (다른 무엇보다도)를 사용하여 빅 데이터 인프라를 설정하려고하는데 특정 데이터 세트에 대해 일부 알고리즘을 실행하고 싶습니다. 알고리즘 자체의 확장 성을 원하므로 Weka, R 또는 RHadoop과 같은 도구를 사용하는 것을 제외합니다. 아파치 두싯 도서관은 좋은 옵션이 될 것 같다, 그리고 기능 회귀 및 클러스터링 작업에 대한 알고리즘을 . …

3
다양한 통계적 기법 (회귀, PCA 등)은 표본 크기와 차원에 어떻게 비례합니까?
표본 크기 및 차원에 따라 확장되는 방법을 설명하는 알려진 일반적인 통계 기법 표가 있습니까? 예를 들어, 내 친구가 며칠 전에 크기 n의 1 차원 데이터를 간단히 정렬하는 계산 시간이 n * log (n)이된다고 말했습니다. 예를 들어 X가 d- 차원 변수 인 X에 대해 y를 회귀하면 O (n ^ 2 * …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.