하둡은 기본적으로 FS (Hadoop Distributed File System), 계산 프레임 워크 (MapReduce) 및 관리 브리지 (Yet Another Resource Negotiator)의 3 가지입니다. HDFS를 사용하면 대량의 데이터를 분산 (더 빠른 읽기 / 쓰기 액세스 제공) 및 중복 (더 나은 가용성 제공) 방식으로 저장할 수 있습니다. 또한 MapReduce를 사용하면이 거대한 데이터를 분산 및 병렬 방식으로 처리 할 수 있습니다. 그러나 MapReduce는 HDFS에만 국한되지 않습니다. FS이므로 HDFS에는 임의 읽기 / 쓰기 기능이 없습니다. 순차적 데이터 액세스에 좋습니다. 그리고 이것이 HBase가 등장하는 곳입니다. Hadoop 클러스터에서 실행되며 데이터에 대한 임의의 실시간 읽기 / 쓰기 액세스를 제공하는 NoSQL 데이터베이스입니다.
구조화 된 데이터와 구조화되지 않은 데이터를 모두 Hadoop 및 HBase에 저장할 수 있습니다. 둘 다 셸 및 기타 API와 같이 데이터에 액세스하기위한 여러 메커니즘을 제공합니다. 또한 HBase는 데이터를 키 / 값 쌍으로 열 방식으로 저장하고 HDFS는 데이터를 플랫 파일로 저장합니다. 두 시스템의 두드러진 특징 중 일부는 다음과 같습니다.
하둡
- 대용량 파일의 스트리밍 액세스에 최적화되었습니다.
- 한 번만 쓰면 많은 이데올로기를 따릅니다.
- 무작위 읽기 / 쓰기를 지원하지 않습니다.
HBase
- 키 / 값 쌍을 열 방식으로 저장합니다 (열은 열 패밀리로 함께 클럽됩니다).
- 대규모 데이터 세트 내에서 소량의 데이터에 대한 짧은 대기 시간 액세스를 제공합니다.
- 유연한 데이터 모델을 제공합니다.
하둡은 오프라인 배치 처리에 가장 적합한 반면, 실시간 요구가있을 때는 HBase가 사용됩니다.
비슷한 비교는 MySQL과 Ext4 사이입니다.