데이터 과학 scalability

12

많은 사람들이 빅 데이터 라는 용어를 다소 상업적인 방식으로 사용하는데, 이는 큰 데이터 세트가 계산에 관련되어 있음을 나타 내기위한 수단이므로 잠재적 솔루션의 성능이 우수해야합니다. 물론 빅 데이터는 항상 확장 성 및 효율성과 같은 관련 용어를 사용하지만 문제를 빅 데이터 문제 로 정확히 정의하는 것은 무엇 입니까? 계산은 데이터 마이닝 / …

86 bigdata scalability efficiency performance

4

스칼라를 사용한 데이터 과학 도구

Spark가 Scala와 완전히 통합되어 있음을 알고 있습니다. 유스 케이스는 특히 대규모 데이터 세트를위한 것입니다. 스칼라를 잘 지원하는 다른 도구는 무엇입니까? Scala는 대규모 데이터 세트에 가장 적합합니까? 아니면 더 작은 데이터 세트에도 적합합니까?

15 scalability scala

4

예를 들어 인프라 스택 / 워크 플로우 / 파이프 라인

hadoop, monogodb / nosql, storm, kafka와 같은 실제 사용 사례에서 모든 "빅 데이터"구성 요소가 함께 작동하는 방식을 이해하려고 노력 중입니다. ... 앱, 웹앱, 온라인 상점에 대한 머신 러닝 학습과 같은 애플리케이션에서의 상호 작용에 대해 더 자세히 알고 싶습니다. 나는 vistors / session, transaction data 등을 가지고 있고 그것을 저장한다; 그러나 …

14 machine-learning bigdata efficiency scalability distributed

3

MongoDB 용으로 작성된 맵 축소 알고리즘을 나중에 Hadoop으로 이식 할 수 있습니까?

우리 회사에는 많은 비정형 데이터가 포함 된 MongoDB 데이터베이스가 있으며, 여기에는 보고서 및 기타 분석을 생성하기 위해 map-reduce 알고리즘을 실행해야합니다. 필요한 분석을 구현하기 위해 선택할 수있는 두 가지 방법이 있습니다. 한 가지 방법은 MongoDB에서 Hadoop 클러스터로 데이터를 추출하고 Hadoop 플랫폼에서 완전히 분석하는 것입니다. 그러나 플랫폼 (소프트웨어 및 하드웨어)을 준비하고 팀이 …

11 scalability apache-hadoop map-reduce mongodb

3

과학 컴퓨팅을위한 최고의 언어

폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

다양한 통계적 기법 (회귀, PCA 등)은 표본 크기와 차원에 어떻게 비례합니까?

표본 크기 및 차원에 따라 확장되는 방법을 설명하는 알려진 일반적인 통계 기법 표가 있습니까? 예를 들어, 내 친구가 며칠 전에 크기 n의 1 차원 데이터를 간단히 정렬하는 계산 시간이 n * log (n)이된다고 말했습니다. 예를 들어 X가 d- 차원 변수 인 X에 대해 y를 회귀하면 O (n ^ 2 * …

10 bigdata statistics efficiency scalability

1

학습 신호 인코딩

맨체스터 인코딩 비트 스트림을 오디오 신호로 나타내는 많은 샘플이 있습니다. 인코딩되는 주파수는 높은 주파수의 주요 주파수 구성 요소이며 백그라운드에 일정한 양의 화이트 노이즈가 있습니다. 이 스트림을 수동으로 디코딩했지만 인코딩 체계를 배우기 위해 일종의 기계 학습 기술을 사용할 수 있는지 궁금합니다. 이렇게하면 이러한 체계를 수동으로 인식하는 데 많은 시간이 절약됩니다. 어려움은 …

9 machine-learning data-mining scalability algorithms feature-selection

«scalability» 태그된 질문