데이터 과학 map-reduce

3

나는 사용자와 그들이 좋아하는 항목의 큰 희소 행렬을 가지고 있습니다 (1M 사용자 및 100K 항목의 순서로, 매우 낮은 수준의 희소성). kNN 검색을 수행 할 수있는 방법을 모색 중입니다. 내 데이터 세트의 크기와 내가 수행 한 초기 테스트를 고려할 때, 사용할 방법이 병렬 또는 분산이어야한다고 가정합니다. 그래서 두 가지 종류의 가능한 …

17 machine-learning distributed map-reduce dimensionality-reduction

3

~ 1XTB 데이터의 Amazon RedShift가 Hadoop을 대체합니까?

하둡과 그 생태계를 둘러싼 과대 광고가 많이 있습니다. 그러나 실제로 많은 데이터 세트가 테라 바이트 범위에 있는 경우 하둡 클러스터를 구축하는 데 시간과 노력을 들이지 않고 Amazon RedShift 를 사용하여 큰 데이터 세트를 쿼리 하는 것이 더 합리적이지 않습니까? 또한 설정 복잡성, 비용 및 성능면에서 Amazon Redshift와 Hadoop을 어떻게 비교합니까?

12 apache-hadoop map-reduce aws

3

MongoDB 용으로 작성된 맵 축소 알고리즘을 나중에 Hadoop으로 이식 할 수 있습니까?

우리 회사에는 많은 비정형 데이터가 포함 된 MongoDB 데이터베이스가 있으며, 여기에는 보고서 및 기타 분석을 생성하기 위해 map-reduce 알고리즘을 실행해야합니다. 필요한 분석을 구현하기 위해 선택할 수있는 두 가지 방법이 있습니다. 한 가지 방법은 MongoDB에서 Hadoop 클러스터로 데이터를 추출하고 Hadoop 플랫폼에서 완전히 분석하는 것입니다. 그러나 플랫폼 (소프트웨어 및 하드웨어)을 준비하고 팀이 …

11 scalability apache-hadoop map-reduce mongodb

3

과학 컴퓨팅을위한 최고의 언어

폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

«map-reduce» 태그된 질문