데이터 과학자가되기 위해 하둡을 배워야합니까?

38

주목받는 데이터 과학자. Hadoop에 대해서는 아무것도 모르지만 Data Science 및 Big Data에 대해 읽으면서 Hadoop에 대해 많은 이야기를합니다. 하둡을 데이터 과학자로 배우는 것이 절대적으로 필요한가?

bigdata apache-hadoop

— 펜수
소스

1

이 질문 클래스는 메타에 대해 논의되고 있습니다. 이 메타 게시물

— asheeshr

반드시 필요한 것은 아닙니다. 도구 중 하나 일뿐입니다. 통계와 선형 대수에 대한 이해가 필요합니다. 도구 선택은 부차적입니다.

— Victor

이 무료 전자 책을보고 귀하의 질문에 답변하려고합니다. oreilly.com/data/free/files/analyzing-the-analyzers.pdf

— Espanta

IBM Watson Analytics, Google Bigquery 및 기타 클라우드 기반 분석에 대해 비슷한 질문이 있습니다.이 기술이 Hadoop 및 Spark보다 우수합니다 ..... Hadoop 및 Spark를 배우기 시작했으며 실제로 Hadoop 및 Spark를 배우기 시작해야합니까? 빅 데이터 분석

47

사람들마다 다른 도구를 사용합니다. 데이터 과학과 같은 용어는 일반적인 이유입니다. 데이터 과학자는 hadoop과 같은 특정 도구를 배우지 않고도 전체 경력을 쌓을 수 있습니다. 하둡은 널리 사용되지만 대규모 데이터를 포함하여 데이터를 관리하고 조작 할 수있는 유일한 플랫폼은 아닙니다.

데이터 과학자는 MapReduce, 분산 시스템, 분산 파일 시스템 등과 같은 개념에 익숙해야한다고 말하지만 그러한 사실을 모르는 사람은 판단하지 않습니다.

큰 분야입니다. 지식의 바다가 있으며 대부분의 사람들은 한 번에 배우고 전문가가 될 수 있습니다. 과학자가되는 비결은 배우고 자하는 욕구와 아직 모르는 것을 알고 싶은 동기를 갖는 것입니다.

예를 들어, 올바른 사람에게 10 년 동안 특정 수업의 강의실 성과에 대한 정보가 포함 된 100 개의 구조화 된 CSV 파일을 전달할 수 있습니다. 데이터 과학자는 계산을 여러 시스템에 분산시킬 필요없이 데이터에서 통찰력을 얻는 데 1 년을 소비 할 수 있습니다. 머신 러닝 알고리즘을 적용하고, 시각화를 사용하여 분석하고, 지역에 대한 외부 데이터, 민족 구성, 시간 경과에 따른 환경 변화, 정치 정보, 날씨 패턴 등과 결합 할 수 있습니다.이 모든 것이 제 생각에는 "데이터 과학"일 것입니다 . 강의실이 아닌 전체 국가의 학생들로 구성된 데이터를 테스트하고 적용하는 데 hadoop과 같은 것이 필요할 수 있지만, 마지막 단계는 반드시 누군가를 데이터 과학자로 만드는 것은 아닙니다.

— 스티브 칼레 스타드
소스

10

전 하둡 엔지니어로서 필요하지는 않지만 도움이됩니다. 하둡은 Java 기반의 가장 일반적인 시스템과 제품 에코 시스템 중 하나 일 뿐이며 특정 기술 "Map / Reduce"를 적용하여 적시에 결과를 얻습니다. Google에서는 하둡을 사용하지 않지만 빅 데이터 분석을 사용한다고 확신합니다. Google은 C ++로 개발 된 자체 시스템을 사용합니다. 실제로 Hadoop은 Google이 Map / Reduce 및 BigTable (HBase in Hadoop) 백서를 게시 한 결과로 만들어졌습니다.

데이터 과학자들은 하둡 엔지니어와 대화하지만 소규모 장소에서는 두 모자를 모두 착용해야 할 수도 있습니다. 데이터 과학자 인 경우 분석, R, Excel, Tableau 등에 사용하는 모든 것이 작은 하위 집합에서만 작동하므로 hadoop과 관련된 전체 데이터 세트에 대해 실행되도록 변환해야합니다.

— 사용자
소스

8

먼저 "학습을 배우다"는 것이 무엇을 의미하는지 명확히해야합니다. MapReduce에서 프로그래밍 학습과 같은 Hadoop을 사용하는 것이 가장 좋습니다. 그러나 시간이 지남에 따라 기본적인 지식 (데이터베이스, 머신 러닝, 통계)이 더 큰 역할을 할 수 있습니다.

— lgylym
소스

분명히 대부분의 사람들이 분석을 위해 하둡을 사용하고 있습니다. 내가 생각하는 것은 데이터베이스, ML, 통계에 대한 지식이나 지식이 필요합니까?

— Pensu 2016 년

5

예, 문제를 데이터 병렬 문제로 해체 할 수있는 플랫폼을 배워야합니다. 하둡은 하나입니다. 간단한 요구 사항 (카운팅, 집계, 필터링 등의 디자인 패턴)에는 Hadoop이 필요하고 Bayesian, SVM과 같은 더 복잡한 기계 학습 항목에는 Mahout이 필요합니다. 데이터 병렬 접근.

따라서 Hadoop은 배우기 좋은 플랫폼이며 배치 처리 요구에 매우 중요합니다. 하둡뿐만 아니라 Spark (Mahout은 Spark를 사용하여 알고리즘을 실행 함) 및 Twitter Storm (실시간 분석 요구 사항)을 알아야합니다. 이 목록은 빌딩 블록 (Distributed Computing, Data-Parallel Problems 등)에 능숙하고 이러한 플랫폼 중 하나 (Hadoop과 같은)가 어떻게 작동하는지 알고 있으면 다른 플랫폼의 속도를 상당히 빠르게 높일 수 있습니다.

— 야 바르
소스

4

작업중인 환경 / 회사에 따라 크게 달라집니다. 내 눈에는 현재 "빅 데이터"가 과대 광고를하고 있으며 많은 회사들이 hadoop 기반 솔루션을 사용하여 현장에 들어 가려고 노력하고 있습니다.-hadoop 또한 유행어이지만 항상 최고의 솔루션은 아닙니다.

제 생각에는 훌륭한 데이터 과학자는 올바른 질문을하고 실제로 필요한 것이 분명해질 때까지 계속 다시 질문 할 수 있어야합니다. 물론 훌륭한 DataScientist보다 문제를 해결하는 방법을 알고 있어야합니다 (또는 최소한 가능한 사람을 알고 있어야 함). 그렇지 않으면 이해 관계자가 좌절 될 수 있습니다 :-)

그래서 하둡을 배우는 데 꼭 필요한 것은 아닙니다.

— PlagTag
소스

2

데이터 과학자로 일하고 싶다면 하둡을 배워야하지만 하둡을 시작하기 전에 ETL 또는 빅 데이터에 대해 읽어야 할 수도 있습니다.이 책은 좋은 출발점이 될 수 있습니다 : http://www.amazon.com / 빅 데이터 원칙-실천 확장 가능 / dp / 1617290343

도움이 되길 바랍니다.

— jsanchez
소스

2

하나의 컴퓨터에있는 데이터에 데이터 과학 기술을 적용 할 수 있으므로 OP가 말한 질문에 대한 대답은 '아니오'입니다.

— 이헤 온 우카
소스

1

데이터 과학은 다양한 기술을 요구하는 분야입니다. 하둡에 대한 지식을 갖는 것이 그 중 하나입니다. 데이터 과학자의 주요 임무는 다음과 같습니다.

다른 리소스에서 데이터 수집
데이터 청소 및 전처리
데이터의 통계적 속성을 연구합니다.
머신 러닝 기술을 사용하여 데이터를 예측하고 통찰력을 얻습니다.
결과를 이해하기 쉬운 방식으로 의사 결정자에게 전달합니다.

위의 포인트 중 하둡에 대한 지식은 포인트 1, 2 및 3에 유용하지만 데이터 과학 분야에서 작동하려면 강력한 수학적 / 통계적 배경과 전산 기술에 대한 지식이 있어야합니다. 또한 Hadoop은 데이터 과학에서 사용되는 유일한 프레임 워크가 아닙니다. Big Data 에코 시스템에는 각각 특정 사용 사례에 따라 다양한 프레임 워크가 있습니다. 이 기사에서는 데이터 과학에 사용될 수있는 주요 빅 데이터 프레임 워크에 대한 소개 자료를 제공합니다.

http://www.codophile.com/big-data-frameworks-every-programmer-should-know/

— 라 예프 싱
소스

1

Leaing Hadoop 프레임 워크 (하드 방식)는 데이터 과학자가되기위한 요구 사항이 아니라고 생각합니다. 모든 빅 데이터 플랫폼에 대한 일반적인 지식이 필수적입니다. 나는 그것에 대한 개념을 알고 제안하고 하둡에서 필요한 부분은 MapReduce http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html입니다.

데이터 과학자는 클러스터를 구축하지 않고 관리합니다 ... 데이터로 "마법"을 만들고 어디에서 왔는지 신경 쓰지 않습니다. "Hadoop"이라는 용어는 위의 기본 모듈뿐만 아니라 "생태계"또는 Apache Pig, Apache Hive, Apache HBase, Apache Spark 및 기타

가장 중요한 것은 데이터 작업을위한 프로그래밍 언어, 수학 및 통계입니다 (데이터와 연결하고 앞으로 나아가는 방법을 찾아야합니다). 나는 누군가가 개념을 지적하고 프레임 워크를 배우고 스크래치 노드와 클러스터를 구축하는 데 몇 주를 소비하지 않기를 바랍니다. 그 부분은 데이터 엔지니어 또는 데이터 과학자가 아닌 관리자 역할이기 때문입니다. 또한 한 가지 : 모두 변화하고 진화하고 있지만 수학, 프로그래밍, 통계는 여전히 요구 사항입니다.

예를 들어 PROC Hadoop, Hive, SparkContext 또는 기타 드라이버 또는 파이프와 같이 hdfs에서 데이터에 액세스하는 것이 필수적입니다 (데이터 또는 스토리지에 액세스하는 지점으로 hadoop 처리).

이미 리소스 할당 및 관리, 성능을 관리하는 도구 또는 프레임 워크가 마련되어 있습니다.

— n1tk
소스