데이터 과학 distributed

5

Hadoop 2.0 및 YARN을 사용하면 Hadoop은 더 이상 맵 감소 솔루션에만 국한되지 않습니다. 이러한 발전과 함께 Apache Spark와 Hadoop의 사용 사례는 모두 HDFS 위에 있다고 생각합니까? Spark의 소개 문서를 읽었지만 Hadoop과 비교하여 Spark 로보 다 효율적이고 해결하기 쉬운 문제가있는 사람이 있는지 궁금합니다.

30 apache-hadoop distributed knowledge-base

3

가장 가까운 이웃은 매우 높은 차원의 데이터를 검색합니다

나는 사용자와 그들이 좋아하는 항목의 큰 희소 행렬을 가지고 있습니다 (1M 사용자 및 100K 항목의 순서로, 매우 낮은 수준의 희소성). kNN 검색을 수행 할 수있는 방법을 모색 중입니다. 내 데이터 세트의 크기와 내가 수행 한 초기 테스트를 고려할 때, 사용할 방법이 병렬 또는 분산이어야한다고 가정합니다. 그래서 두 가지 종류의 가능한 …

17 machine-learning distributed map-reduce dimensionality-reduction

3

병렬 및 분산 컴퓨팅

병렬 컴퓨팅과 분산 컴퓨팅의 차이점은 무엇입니까? 확장 성과 효율성에 관해서는 머신 클러스터에서 계산을 처리하는 솔루션을 보는 것이 매우 일반적이며 병렬 처리 또는 분산 처리라고도합니다. 어떤 식 으로든 동시에 실행되는 것이 있기 때문에 계산은 항상 병렬 인 것처럼 보입니다. 그러나 분산 계산은 단순히 하나 이상의 기계를 사용하는 것과 관련이 있습니까, 아니면이 …

15 definitions parallel distributed

4

예를 들어 인프라 스택 / 워크 플로우 / 파이프 라인

hadoop, monogodb / nosql, storm, kafka와 같은 실제 사용 사례에서 모든 "빅 데이터"구성 요소가 함께 작동하는 방식을 이해하려고 노력 중입니다. ... 앱, 웹앱, 온라인 상점에 대한 머신 러닝 학습과 같은 애플리케이션에서의 상호 작용에 대해 더 자세히 알고 싶습니다. 나는 vistors / session, transaction data 등을 가지고 있고 그것을 저장한다; 그러나 …

14 machine-learning bigdata efficiency scalability distributed

2

Storm과 Hadoop 간의 상충 관계 (MapReduce)

누군가가 데이터 처리를 위해 Hadoop Cluster에서 Storm과 MapReduce를 선택할 때 관련된 트레이드 오프에 대해 친절하게 말해 줄 수 있습니까? 물론 Hadoop (Hadoop 클러스터에서 MapReduce를 통한 처리)은 일괄 처리 시스템이고 Storm은 실시간 처리 시스템이라는 것이 명백합니다. Hadoop Eco System에서 약간 작업했지만 Storm에서는 작업하지 않았습니다. 많은 프레젠테이션과 기사를 검토 한 후에도 여전히 …

12 bigdata efficiency apache-hadoop distributed

3

과학 컴퓨팅을위한 최고의 언어

폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

1

그라디언트 부스팅 라이브러리를위한 Distributed의 의미는 무엇입니까?

XGBoost 설명서를 확인하고 있으며 XGBoost는 최적화 된 분산 그라디언트 부스팅 라이브러리입니다. 분산이란 무엇입니까? 좋은 하루 되세요

9 xgboost distributed boosting

«distributed» 태그된 질문