~ 1XTB 데이터의 Amazon RedShift가 Hadoop을 대체합니까?

12

하둡과 그 생태계를 둘러싼 과대 광고가 많이 있습니다. 그러나 실제로 많은 데이터 세트가 테라 바이트 범위에 있는 경우 하둡 클러스터를 구축하는 데 시간과 노력을 들이지 않고 Amazon RedShift 를 사용하여 큰 데이터 세트를 쿼리 하는 것이 더 합리적이지 않습니까?

또한 설정 복잡성, 비용 및 성능면에서 Amazon Redshift와 Hadoop을 어떻게 비교합니까?

apache-hadoop map-reduce aws

— 삼위 일체
소스

당신은 하둡을 의미합니까, 아니면 임팔라와 같은 레드 시프트의 특정 대응을 의미합니까?

— Sean Owen

내 질문에 @SeanOwen, 나는 Apache Hadoop을 언급했다. 임팔라를 비교하는 것도 흥미로울 것입니다.

— trienism

12

tl; dr : 그들은 많은 측면에서 현저히 다르며 Redshift가 Hadoop을 대체 할 것이라고 생각할 수 없습니다.

-기능
Redshift에서는 SQL 이외의 다른 것을 실행할 수 없습니다. 가장 중요한 것은 Redshift에서 어떤 유형의 사용자 정의 기능도 실행할 수 없다는 것입니다. 하둡에서는 많은 언어 (자바, 파이썬, 루비 등)를 사용하여 할 수 있습니다. 예를 들어, Hadoop의 NLP는 쉽지만 Redshift에서는 거의 불가능합니다. 즉, Hadoop에서는 할 수 있지만 Redshift에서는 할 수없는 일이 많이 있습니다. 이것은 아마도 가장 중요한 차이점 일 것입니다.

Redshift에서 성능 프로파일 쿼리 실행은 대부분 Hadoop보다 훨씬 효율적입니다. 그러나이 효율성은 데이터가 Redshift에로드 될 때 수행되는 인덱싱에서 비롯됩니다 ( indexing여기서는 매우 느슨한 용어를 사용하고 있습니다). 따라서 데이터를 한 번로드하고 여러 쿼리를 실행하면 좋지만 예를 들어 하나의 쿼리 만 실행하려는 경우 실제로 전체 성능이 저하 될 수 있습니다.

-
비용 프로필 어떤 솔루션이 비용에서 우위를 차지하는지는 성능과 같은 상황에 따라 다르지만 하둡 (특히 Amazon의 Elastic Map Reduce)보다 저렴하게 만들려면 많은 쿼리가 필요할 수 있습니다. 예를 들어 OLAP을 수행하는 경우 Redshift가 더 저렴해질 가능성이 큽니다. 매일 일괄 ETL을 수행하면 Hadoop이 더 저렴해질 가능성이 높습니다.

우리는 Hive to Redshift에서 수행 된 ETL의 일부를 교체했으며 매우 훌륭한 경험이었습니다. 개발의 용이성을 위해 주로. Redshift의 쿼리 엔진은 PostgreSQL을 기반으로하며 Hive와 비교하여 매우 성숙합니다. ACID 특성으로 인해 추론하기가 쉬워지고 응답 시간이 빠를수록 더 많은 테스트를 수행 할 수 있습니다. 가지고있는 훌륭한 도구이지만 하둡을 대체하지는 않습니다.

편집 : 설정의 복잡성에 관해서는 AWS의 EMR을 사용하면 Hadoop을 사용하는 것이 더 쉽다고 말합니다. 그들의 도구는 매우 성숙하여 Hadoop 작업을 실행하기가 엄청나게 쉽습니다. Redshift의 운영을 둘러싼 도구와 메커니즘은 아직 성숙하지 않았습니다. 예를 들어, Redshift는 세류 로딩을 처리 할 수 없으므로이를 배치 된로드로 바꾸는 무언가를 생각해 내야합니다.

— 엔노시오 지
소스

2

easier to develop because of Redshift's maturity와 모순 Redshift isn't that mature yet평결 무엇 때문에?

— M. Mimpen

@ M.Mimpen :보다 구체적으로 편집 된 답변

— Enno Shioji

5

Amazon Redshift의 현재 크기 제한은 128 노드 또는 2PB의 압축 데이터입니다. 마일리지는 압축에 따라 다르지만 6PB 비 압축 일 수 있습니다. 더 필요한 경우 언제든지 알려주십시오. anurag @ aws (Amazon Redshift 및 Amazon EMR을 실행)

— 아누 라그 굽타
소스

3

개인적으로, 나는 hadoop 클러스터를 설정하는 것이 어렵다고 생각하지 않지만, 시작할 때 때때로 고통 스럽다는 것을 알고 있습니다.

HDFS 크기 제한은 TB를 훨씬 초과합니다 (또는 엑사 바이트를 의미 했습니까?). 내가 실수하지 않으면 요타 바이트 또는 다른 단어로도 알지 못합니다. 그것이 무엇이든, 그것은 정말로 큽니다.

Redshift와 같은 도구는 그 자리에 있지만 항상 공급 업체별 솔루션에 대해 걱정합니다. 나의 주요 관심사는 항상 "그들의 서비스에 불만이있을 때 어떻게해야합니까?"입니다. -구글로 가서 분석 작업을 패러다임으로 옮기거나 같은 작업을 그 시스템으로 옮겨 놓을 수 있습니다. 어느 쪽이든, 나는 새로운 것을 배우고 많은 것을 번역해야합니다.

즉, 특히 내가하고있는 작업의 수명이 짧은 경우 데이터 세트를 업로드하고 빠르게 작업 할 수 있다는 것이 좋습니다. 아마존은 데이터 보안 문제에 대한 해답을 잘 수행했습니다.

hadoop을 피하려면 항상 대안이 있습니다. 그러나 일단 당신이 일단 그것을 가지고 일하는 것이 그렇게 어려운 것은 아닙니다.

— 스티브 칼레 스타드
소스

3

OP의 TB에 대한 참조는 "하둡을 사용할 수있는 작은 데이터에 대한 데이터"를 의미한다고 가정합니다. 페타 바이트가 여러 개인 경우 Redshift가 적합하지 않습니다. (저는 16TB 노드가 100 개로 제한되어 있다고 생각합니다.)

— Tim Goodman