나는 한동안 ServerFault를 읽는 것을 즐기고 있었고 Hadoop에 대해 꽤 많은 주제를 보았습니다. 나는 세계적인 관점에서 그것이 무엇을하는지 알아내는 데 약간의 어려움을 겪었습니다.
그래서 내 질문은 매우 간단합니다. 하둡이란 무엇입니까? 무엇을합니까? 무엇을 위해 사용됩니까? 왜 엉덩이를 차는거야?
편집 : 하둡이 사용 된 유스 케이스에 대한 데모 / 설명을 가진 사람이 있다면 환상적입니다.
나는 한동안 ServerFault를 읽는 것을 즐기고 있었고 Hadoop에 대해 꽤 많은 주제를 보았습니다. 나는 세계적인 관점에서 그것이 무엇을하는지 알아내는 데 약간의 어려움을 겪었습니다.
그래서 내 질문은 매우 간단합니다. 하둡이란 무엇입니까? 무엇을합니까? 무엇을 위해 사용됩니까? 왜 엉덩이를 차는거야?
편집 : 하둡이 사용 된 유스 케이스에 대한 데모 / 설명을 가진 사람이 있다면 환상적입니다.
답변:
로부터 직선 말의 입 :
하둡은 상용 하드웨어로 구축 된 대규모 클러스터에서 애플리케이션을 실행하기위한 프레임 워크입니다. Hadoop 프레임 워크는 애플리케이션에 안정성과 데이터 모션을 모두 투명하게 제공합니다. Hadoop은 Map / Reduce라는 계산 패러다임을 구현합니다. 여기서 응용 프로그램은 클러스터의 모든 노드에서 실행되거나 다시 실행될 수있는 여러 작은 작업 조각으로 나뉩니다. 또한 컴퓨팅 노드에 데이터를 저장하는 분산 파일 시스템 (HDFS)을 제공하여 클러스터에서 매우 높은 집계 대역폭을 제공합니다. Map / Reduce와 분산 파일 시스템은 노드 장애가 프레임 워크에 의해 자동으로 처리되도록 설계되었습니다.
Map / Reduce는 작업에서 작은 부분으로 나뉘어 처리하기 위해 많은 수의 노드로 배포 되는 Google 에서 대중화 한 프로그래밍 패러다임 이며 결과는 최종 답변 (요약)으로 요약됩니다. ). 구글과 야후는 무엇보다도 검색 엔진 기술에 이것을 사용한다.
하둡은 이러한 종류의 처리 체계를 구현하기위한 일반적인 프레임 워크입니다. 결함 허용과 같은 깔끔한 기능을 제공하고 처리를 위해 거의 모든 종류의 하드웨어를 모을 수 있기 때문에 왜 엉덩이를 찰까요? 문제가 패러다임에 맞으면 확장 성이 매우 뛰어납니다.
당신은 웹 사이트에서 그것에 관한 모든 것을 읽을 수 있습니다 .
몇 가지 예를 들어 Paul은 몇 가지를 주었지만 웹 중심이 아닌 몇 가지 더 할 수 있습니다.
본질적으로이 모델은 완전히 독립적 인 유사한 이산 계산으로 분류 될 수 있고 최종 결과를 생성하기 위해 재결합 될 수있는 문제에 매우 효과적입니다.
Cloudera에는 Map Reduce 및 Hadoop의 기본 원리를 설명하는 훌륭한 비디오가 있습니다.
http://www.cloudera.com/hadoop-training-basic
MapReduce의 핵심 아이디어 중 하나는 대용량 데이터 세트의 경우 디스크에서 io-bound 될 것이므로 Hadoop HDFS에서는 병렬 처리를 가능하게하는 많은 노드간에 항목을 분할 할 수 있다는 것입니다.
시스템 관리자가 관심을 갖는 Hadoop의 일부 사용은 종종 큰 로그 파일 세트를 처리하는 데 사용됩니다. 하나의 링크 만 게시 할 수 있지만 여기에는 Google이 다음을 찾아야합니다.