하둡이란 무엇이며 어떤 용도로 사용됩니까? [닫은]

28

나는 한동안 ServerFault를 읽는 것을 즐기고 있었고 Hadoop에 대해 꽤 많은 주제를 보았습니다. 나는 세계적인 관점에서 그것이 무엇을하는지 알아내는 데 약간의 어려움을 겪었습니다.

그래서 내 질문은 매우 간단합니다. 하둡이란 무엇입니까? 무엇을합니까? 무엇을 위해 사용됩니까? 왜 엉덩이를 차는거야?

편집 : 하둡이 사용 된 유스 케이스에 대한 데모 / 설명을 가진 사람이 있다면 환상적입니다.

hadoop

Facebook은 Hadoop (하둡 위에있는 레이어 인 Hive)을 많이 사용합니다. Facebook Engineering 페이지에 좋은 글이 있습니다. facebook.com/note.php?note_id=89508453919

— John Meagher 2016 년

Hadoop은 노드 / 서버간에 데이터 클러스터를 분배하고 프로세스를 병렬로 실행하여 대량의 데이터 ( Big data )를 간단하게 처리 할 수있는 프레임 워크입니다 . 이 프로세스 / 알고리즘을 MapReduce라고합니다.

— Mr_Green

26

로부터 직선 말의 입 :

하둡은 상용 하드웨어로 구축 된 대규모 클러스터에서 애플리케이션을 실행하기위한 프레임 워크입니다. Hadoop 프레임 워크는 애플리케이션에 안정성과 데이터 모션을 모두 투명하게 제공합니다. Hadoop은 Map / Reduce라는 계산 패러다임을 구현합니다. 여기서 응용 프로그램은 클러스터의 모든 노드에서 실행되거나 다시 실행될 수있는 여러 작은 작업 조각으로 나뉩니다. 또한 컴퓨팅 노드에 데이터를 저장하는 분산 파일 시스템 (HDFS)을 제공하여 클러스터에서 매우 높은 집계 대역폭을 제공합니다. Map / Reduce와 분산 파일 시스템은 노드 장애가 프레임 워크에 의해 자동으로 처리되도록 설계되었습니다.

Map / Reduce는 작업에서 작은 부분으로 나뉘어 처리하기 위해 많은 수의 노드로 배포 되는 Google 에서 대중화 한 프로그래밍 패러다임 이며 결과는 최종 답변 (요약)으로 요약됩니다. ). 구글과 야후는 무엇보다도 검색 엔진 기술에 이것을 사용한다.

하둡은 이러한 종류의 처리 체계를 구현하기위한 일반적인 프레임 워크입니다. 결함 허용과 같은 깔끔한 기능을 제공하고 처리를 위해 거의 모든 종류의 하드웨어를 모을 수 있기 때문에 왜 엉덩이를 찰까요? 문제가 패러다임에 맞으면 확장 성이 매우 뛰어납니다.

당신은 웹 사이트에서 그것에 관한 모든 것을 읽을 수 있습니다 .

몇 가지 예를 들어 Paul은 몇 가지를 주었지만 웹 중심이 아닌 몇 가지 더 할 수 있습니다.

3D 필름 렌더링 "맵"단계는 모든 프레임의 지오메트리를 다른 노드에 분배하고 노드가 렌더링하며 렌더링 된 프레임은 "감소"단계에서 재결합됩니다.
분자 모델에서 시스템의 에너지 계산. 시스템 궤적의 각 프레임은 "맵"단계에서 노드로 분배됩니다. 노드는 각 프레임의 에너지를 계산
한 다음 결과를 "감소"단계로 요약합니다.

본질적으로이 모델은 완전히 독립적 인 유사한 이산 계산으로 분류 될 수 있고 최종 결과를 생성하기 위해 재결합 될 수있는 문제에 매우 효과적입니다.

— 카밀 키 시엘
소스

답변 주셔서 감사합니다. 그래서 기본적으로 앱 (PHP? Java?)을 가져 와서 여러 노드 사이에서 작업을 파견하고 파견합니까? HDFS의 경우 많은 노드를 제외하고는 OCFS와 비슷합니다.

— Antoine Benkemoun

이것에도 관심이 있습니다. 그래도 좀 더 구체적이고 실제적인 단어 예를보고 싶습니다.

— Karolis T.

그게 내가 :-) 또한 무엇을 찾고 있었다이었다

— 앙 뜨완 Benkemoun

10

Cloudera에는 Map Reduce 및 Hadoop의 기본 원리를 설명하는 훌륭한 비디오가 있습니다.

http://www.cloudera.com/hadoop-training-basic

MapReduce의 핵심 아이디어 중 하나는 대용량 데이터 세트의 경우 디스크에서 io-bound 될 것이므로 Hadoop HDFS에서는 병렬 처리를 가능하게하는 많은 노드간에 항목을 분할 할 수 있다는 것입니다.

시스템 관리자가 관심을 갖는 Hadoop의 일부 사용은 종종 큰 로그 파일 세트를 처리하는 데 사용됩니다. 하나의 링크 만 게시 할 수 있지만 여기에는 Google이 다음을 찾아야합니다.

랙 스페이스 메일 로그 쿼리
돼지로 아파치 로그 분석-Cloudera 블로그 참조
야후! 스팸 방지

멋져 보여요 :-)

— Antoine Benkemoun

1

처음에 hadoop은 OLAP 환경에서 많은 양의 데이터 세트를 위해 개발되었습니다.

hadoop 위에 Hbase를 도입하면 OLAP Processing에도 지팡이를 사용할 수 있습니다. Hadoop은 map reduce, hdfs, hbase, pig와 같은 모든 하위 구성 요소가 포함 된 프레임 워크입니다.

하둡이 소개 된 이유에서 하둡 에 대한 기본 기사를 소개 합니다.

Hadoop에서는 테이블이 아닌 파일 형식의 데이터 스토리지입니다.

— 디팍
소스