공간 ETL (추출, 변환,로드)에 대한 옵션을 찾고 있습니까?


33

다양한 공간 ETL (추출, 변환,로드) 도구의 장단점에 관심이 있습니다. 여기에 나열된 항목을 사용한 경우 (또는 직접 추가 한 경우) 귀하의 의견과 경험을 찾으십시오. 특히 다음과 같은 유용성을 비교하고 싶습니다.

언급 된 모든 소프트웨어에 대한 리뷰를 제공 할 필요는 없습니다. 하나라도 경험이 있다면 어느 방향으로 갈지 결정하는 데 매우 도움이 될 것입니다.

예 : 입력 레이어를 선택하고 변환을 만들고 사전 정의 된 새 스키마로 출력 할 수있는 스키마 변환 함수를 만들려고합니다. 번역 스크립트를 만든 후 입력 레이어의 필드를 출력 레이어에 "매핑"할 수있는 대화 형 양식을 만들고 싶습니다 (예 : 출력 레이어에 "주소"라는 필드가 있음). 입력 레이어에?)

일부의 Q & A에 언급 된 도구는 데이터베이스에 업로드 GIS 데이터에 사용할 수있는?

그리고 내가 찾은 두 가지 관련 기사가 있습니다.

답변:


17

이 질문은 커뮤니티 위키 및 위키 잠김으로 변환되었습니다. 답변 목록을 찾는 질문의 예이므로 폐쇄되지 않도록하기 위해 인기가있는 것으로 보입니다. 특수한 경우로 취급해야하며이 사이트 또는 모든 Stack Exchange 사이트에서 권장되는 질문 유형으로 간주되어서는 안되지만 더 많은 콘텐츠를 제공하려면이 답변을 편집하여 자유롭게 수행하십시오. .


전문적인 맥락에서 본 것에 대해서만 이야기하겠습니다. 저의 학생은 잘 알려진 소스 (TeleAtlas)에서 GIS로 대량의 공간 데이터를 수신, 검증 및 통합하는 업무를 수행하는 기업과 협력했습니다. 그녀는 FME를 사용하여 기능 선택, 토폴로지 확인, 중복 제거 등과 같은 형식에서 다른 형식으로 즉석에서 매우 복잡한 검증 및 변환을 수행하는 여러 워크 플로를 사용했습니다. 그 후 워크 플로는 자동으로 들어오는 데이터 세트를 처리 할 수있었습니다.

나는 학생이 이와 같은 또 다른 FME 워크 플로우를 설명했던 비바 보호 관찰 보고서 (죄송합니다, "유지 보수 의사 결정 단계"의 Google Traduction)에 대한 배심원이었습니다. 그러나 이번에는 통합을 위해 국가 수준으로 전송 된 지역 데이터 세트의 유효성을 검사합니다. 국가 위험 데이터베이스에. 주요 차이점은이 마지막 예에서 데이터 세트는 매우 다양한 파일 형식, 래스터 및 벡터, 스케일 및 스타일로되어 있다는 것입니다.

마지막으로 Talend Open Studio를 기반으로하는 오픈 소스 ETL 인 Spatial Data Integrator를 테스트했습니다. 기능은 많았지 만 FME보다 적었지만 워크 플로 작성의 문서와 사용자 친화성에 큰 차이가 있다고 생각합니다. 워크 플로 구성 요소의 Java 코드 소스를 수정해야하는 경우가 종종있었습니다. 그러나 그것은 초기 버전의 SDI였으며 여기에서 설명하는 단점은 오픈 소스 프로젝트에서 처음에는 다소 평범한 것이며, 우리는 동일한 수준의 잘 정립 된 소프트웨어와 무료 오픈 소스 젊은 경쟁자를 비교할 수 없습니다.


24

몇 GB의 공간 데이터로 작업하는 최근 프로젝트의 경우 FME를 사용하여 데이터로드 / 재 투영을 시작했습니다. 잘 작동했지만 학습 곡선이 있습니다.

프로젝트가 끝날 무렵에는 파이썬 스크립트를 사용하여 재 이민 프로세스를 자동화했습니다. FME를 스크립팅 할 수 있지만 파이썬 기초가 있다면 왜 더 복잡해 집니까? 파이썬은 완벽한 유연성을 제공하며 각 가져 오기 스크립트를 작성하면 파이썬 기술이 향상됩니다.

데이터 변환 작업을 할 때 다음 Python 패키지가 매우 중요하다는 것을 알았습니다.

개발자 / 프로그래밍 배경이 있다면 Python을 사용하는 것이 좋습니다. GUI로 작업하는 것을 선호하는 경우 (문서화를 위해 멋진 이미지를 생성 할 수 있음) FME를 권장합니다.


11

나는 오픈 소스를 좋아하지만 FME는 내가 알 수있는 한 오픈 소스 ETL에 비해 쉽게 승리합니다. 실제로 유지 관리 및 지원 비용이 저렴합니다 (적어도 다른 회사 솔루션과 비교할 때).

형식 간 변환을 찾고 있다면 OGR 이 수행 할 수 있습니다 (일부 변환을 위해 GDAL 로 파이프 연결 ). 물론, 그것은 커맨드 라인 입니다.

대한 시각적 모델링 은 "가능한 한 중복"코멘트에 나열된 이상, 그들은 QGIS / SEXTANTE 모델 빌더에 최선을 다하고 있습니다; 개념 증명 비디오 : https://www.youtube.com/watch?v=LTUu-I2ouqU

(아니요, 저는 안전을 위해 일하지 않고 비교적 행복한 고객입니다).


비디오 링크가 끊어졌습니다. 고칠 수 있습니까?
GeoStoneMarten


6

나는 이 스레드에서 언급 된 대부분의 옵션을 포함하는 약 1 년 전에 다양한 도구를 비교했습니다 .

더 직접적인 대답으로, 나는 FME의 다양성으로 인해 많은 것을 사용합니다. 그러나 CityGML, INSPIRE GML 또는 더 큰 데이터베이스 모델과 같은 복잡한 데이터 구조로 작업 할 때는 ETL 및 특히 조화를 위해 개발 된 오픈 소스 앱인 HALE을 사용 합니다.

여기에 이미지 설명을 입력하십시오

현재 (버전 2.9.0 기준) 다음과 같이 FME (2014 SP1)와 비교됩니다.

  • HALE는 더 적은 수의 형식 (HALE : 20, FME 200)과 변환기 (HALE : 30+, FME : 400 이상)를 갖지만 모든 XML / GML 방언을 매우 잘 지원합니다.
  • HALE는 맵 및 테이블보기에서 대화식으로 변환 결과를 미리보고 출력을 직접 검증합니다.
  • 각 속성에 대한 로컬 컨텍스트가 유지되므로 HALE이 일반적으로 훨씬 빠릅니다. 예를 들어 많은 FeatureMergers가 절약됩니다.
  • HALE는 오픈 소스이며 2010 년부터 프로덕션 용도로 사용됩니다.
  • HALE은 선언적 매핑 UI를 사용하므로 절차 적 접근 방식에 비해 필요한 사용자 입력 수가 줄어 듭니다.

나는 몇 년 동안 HALE 팀에 근무했습니다.


오늘날 FME와 어떻게 비교 되는가? 특히 웹 및 geoRSS 데이터 피드의 경우?
Dr.YSG

@ Dr.YSG는 2015 년 wetransform GmbH에 의해 고래 유지 보수가 인수되었으며, 이제 개발에 전념하는 전담 팀이 있습니다. 지난 4 년간 상당한 발전이있었습니다. 변경 사항은 GitHub 릴리스 노트에 설명되어 있습니다. JSON / GeoJSON 데이터 처리를 지원합니다. GeoRSS는 GML의 일부를 재사용하는 간단한 XML 형식이므로 완벽하게 지원됩니다. GeoRSS 피드를 자동으로 처리하려면 hale-cli (명령 줄 인터페이스 및 기타 API)를 살펴보십시오.
tr_xsdi

5

blah238의 중복 링크를 보면 자세한 정보를 찾을 수 있습니다. Talend Open Studio와 Pentaho GeoKettle이 가장 눈에 띄는 오픈 소스 솔루션이라고 말할 수 있습니다. 이 두 가지 Talend는 내가 읽은 한 ETL 및 GeoKettle 이상을 대상으로합니다.

지자체는 GeoKettle에게 스웨덴 지방 자치 단체 및 지역 협회 (SALAR)가 함께 결합한 GML 방언을 작성하게하려고하는데, 지리 데이터를 다른 상업 시설에 전달하려면이 형식이 필요합니다.

GeoKettle은 버전 2.0부터 OGR / GDAL을 지원한다고 생각합니다.


5

FME는 아마도이 공간에서 사용하기에 가장 적합한 제품 일 것입니다. 그 후 GDAL / OGR입니다. 이 공간의 또 다른 오픈 소스 제품은 geokettle입니다 - http://www.spatialytics.org/projects/geokettle/ 나는 (언급 모두 다른 제품을 가지고 운이 충분히있는) 분노를 사용한 적이 있지만.

이러한 일반 옵션이 작동하지 않으면 특정 변환 도구를 사용하고 싶을 것입니다.


3

Eclipse UI를 사용하지 않는 한 소규모 프로젝트 고 학습 곡선을 위해 종교적으로 Geokettle을 사용했습니다. GDAL1.10에 대해 컴파일 된 것만 큼 강력합니다. 모든 지리적 유형을 지원합니다 ... 내가 좋아하는 것은 저장된 데이터와 서비스를 통한 데이터 모두에 대한 지원이었습니다. ... ESRI json을 통해 로컬 postgis 인스턴스에서 ArcGIS 서버 데이터 세트를 재생성하고 GeoJSON에 동기화하는 데 사용했습니다. 워크 플로는 조건을 설정하고 유효성을 검사하여 objectid 수를 쿼리하고 사전 정의 된 csv를 컴파일하도록 설정합니다. 첫 번째 쿼리에 따라 한 번에 500 개의 기능에 대한 게시 요청을 반복하려면 모든 요청을 하나의 geojson 파일로 통합하고 ogr2ogr을 실행하여 스크립팅 된 postgi도 진공 및 인덱스를 실행하도록 postgis에로드 할 수있었습니다. 선풍기

데스크탑 GUI에서이를 실행하고 워크 플로우를 맵핑하고 pentahos 서버 도구를 사용하여 Hadoop에서이를 설정하고 스크립트 또는 크론 작업으로 실행할 수 있습니다.


3

QGIS (최소 현재 버전 2.6 이후)에도 통합 모델 빌더가 있습니다. 이 도구 상자를 통해 여러 가지 알고리즘 (GDAL, GRASS, SAGA, vectortools 등)에 액세스 할 수 있습니다. 자신 만의 스크립트를 추가 할 수도 있습니다.

나는 그것을 광범위하게 사용하지 않았다는 것을 인정해야하지만, 모델 빌더를 찾고 있다면 조사 할 가치가 있다고 생각할 것입니다.


0

[경고 : 관련 제품에 대한 무상 프로모션]

우리는 ETL을 수행하는 도구를 연구하고 있습니다. FME와 맛이 비슷하지만 더 간단한 작업을 위해 사용되며 전문 지식이 덜 필요합니다. 자세한 내용은 https://www.geoactive.it 에서 확인할 수 있습니다 . Data Dragon에 대한 정보 만 찾으십시오. 이 애플리케이션은 백엔드에서 GDAL / OGR을 사용하며 추가 한 사항을 GDAL / OGR로 푸시합니다.

상업적 사용을 위해서는 구입이 필요하지만 학업 라이센스는 무료로 제공되므로 학습 메시지에 사용하려면 자세한 내용을 알려 드리겠습니다.

이것은 초기 릴리스 단계에 있으므로 약간의 버그가 여전히 있으므로 우리와 함께하십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.