ETL보다 ELT 프로세스를 사용하는 데 유리한 주장은 무엇입니까?


19

회사에서 ETL (추출 변형로드) 프로세스를 사용하는 대신 ELT (추출로드 변환) 프로세스를 사용한다는 것을 깨달았습니다.
두 접근 방식의 차이점은 무엇이며 어떤 상황에서 다른 것보다 "더 나은"상황이 발생합니까? 몇 가지 예를 제공 할 수 있다면 좋을 것입니다.

답변:


13

ETL과 ELT에 대한 많은 토론이 있습니다.

ETL과 ELT의 주요 차이점 은 처리가 발생하는 위치입니다. 입니다. 데이터의 ETL 처리는 ETL 도구 (일반적으로 한 번에 한 번에 레코드 및 메모리에서)에서 발생합니다. 데이터의 ELT 처리는 데이터베이스 엔진에서 발생합니다.

데이터는 동일하며 두 가지 방법으로 데이터의 최종 결과를 얻을 수 있습니다.

그것은 당신과 당신의 환경에 달려 있습니다. 강력한 데이터베이스 엔진과 좋은 하드웨어를 가지고 있고 그것에 대해 많은 처리를 할 수 있다면, ELT는 당신에게 좋습니다, 바쁜 데이터웨어 하우스 엔진이 있고 처리에서 벗어나야하는 경우 ETL을 위해.

ETL 도구를 사용하면 ETL (T)와 같은 두 가지 옵션을 모두 사용할 수 있으며 ETL 도구에서 변환을 수행 할 수 있으며 데이터베이스 엔진에서도 변환을 수행 할 수 있습니다.

그러나 ELT에는 데이터베이스 엔진에서 변환 옵션 만 있지만 데이터베이스는 한 번에 한 번에 기록 된 ETL 도구보다 세트 기반 조작에서 더 우수하다는 것을 알아야합니다.

SO 에 대해 질문 했지만 ETL을 지원하며 ETL과 ELT를 비교하지만 ELT를 선호 하는 훌륭한 기사


10

거의 의미론의 문제입니다. 이것에 대한 토론에서 많은 열기가 방출되지만 실제로는 둘 사이의 구별에 실질적인 철학적 깊이가 있다고 확신하지는 않습니다.

어떤 수준에서는 ETL이 데이터를 최종로드하기 전에 클라이언트 측 도구에서 데이터를 변환하는 것으로 볼 수 있습니다. ELT는 데이터가 형식을 거의 변경하지 않고 일종의 준비 영역으로 전송됨을 암시합니다. '변환'은 이후에 발생합니다.

이들은 매우 푹신한 정의이며 다양한 기술 아키텍처에 적용될 수 있으며 두 용어 중 하나를 설명하는 데 사용할 수있는 많은 디자인이 있습니다.

나는 모든 변환 및 비즈니스 논리가 다소 동종 코드 기반으로 구축 될 수있는 아키텍처를 선호하며 변환 논리가 매우 복잡한 많은 시스템을 수행했습니다. 이것은 단지 ETL 도구를 사용하여 데이터를 랜딩 한 다음 모든 변환이 저장 프로 시저에서 수행되는 경향이있었습니다. 논란의 여지는 있지만 시맨틱 중 하나의 차이 만있는 ETL 또는 ELT로 설명 할 수 있습니다.

그러나 일부 도구는 데이터베이스 중심적입니다 (예 : Oracle Data Integrator는 종종 ELT 도구라고 함). 이 뷰에 가입하면 데이터가 준비 영역에 도달 할 때 데이터가 변환되고 SQL 또는 PL / SQL 코드에 의해 크런치되기 전에 '추출'및 '로드'가 발생합니다. 손으로 쓴). 내가 말한 몇몇 사람들은 ODI의 주요 장점을 OWB가 아니라고 생각하는 것 같습니다.

Informatica Powercentre 또는 MS SQL Server Integration Services와 같은 클라이언트 쪽 도구를 사용하는 경우이 도구는 데이터를 클라이언트쪽으로 광범위하게 변환 할 수 있습니다. Ascential Datastage 및 Ab Initio와 같은 일부 ETL 도구는 플랫 파일 및 인 메모리 데이터 구조로 많은 작업을 수행하도록 설계되었습니다. 이러한 종류의 아키텍처에서는 변환이로드되기 전에 이미 수행되었습니다. 아마도이 유형의 아키텍처는 분명히 'ETL'로 분류 될 수 있지만 모든 실제 작업이 수많은 저장 프로 시저 코드에 의해 수행되는 많은 도구 중심 프로젝트를 보았습니다.

다양한 툴과 아키텍처 접근 방식에는 장점이 있지만 용어가 너무 넓어서 차이가 거의 의미가 없기 때문에 'ETL'과 'ELT'접근 방식의 장점에 대해 포괄적 인 진술을 할 수는 없습니다. Ab Initio의 플랫 파일을 많이 사용하면 일부 도구와 아키텍처에 특별한 이점이있을 수 있습니다. 대용량 데이터에서 성능이 크게 향상됩니다.

실제로 'ETL'과 'ELT'를 구분하는 것은 시스템 요구 사항, 플랫폼 및 기술 아키텍처에 대한 심층적 인 논의 없이는 의미가 없습니다.


1

돈 문제이기도합니다. 데이터 볼륨이 높을 때 Ab Initio 및 DataStage Parallel Extender와 같은 플랫 파일 기반 솔루션은 실제로 더 빠르지 만 중간에서 높은 6 개의 피겨 제안이 될 수 있습니다. IRI CoSort는 매우 ETL 중심이며 (ELT 비교에 따라) 복잡한 Hadoop 구현을 제외하고 파일 시스템 속도로 변환 볼륨을 해결하는 유일한 방법입니다. 또한 일반적으로 ELT 어플라이언스 및 인 메모리 DB 가하는 문제에 하드웨어를 던지는 것도 비용 측면에서 규모가 크지 않다고 생각합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.