Open Data 배포에 가장 적합한 데이터 형식은 무엇입니까?


15

공개 데이터 배포를 고려할 때 다양한 데이터 형식 (성능, 파일 크기 등)의 장단점이 무엇입니까?

우리 조직은 데이터를 공개 데이터로 게시하려고합니다. 그러나 사용할 데이터 형식에 대한 명확한 아이디어는 없습니다. 물론 데이터 형식이 '개방적'일수록 사용하기가 더 쉽습니다.

다음 유형을 고려할 때 가장 개방적인 데이터 형식으로 개방형 데이터 배포에 가장 유용한 데이터 형식은 무엇입니까?

  • 래스터 데이터 (생각 : GeoTIFF, Erdas IMGine IMG?)
  • 벡터 데이터 (생각합니다 : GML, CSV, ESRI Shapefile, DXF?)
  • 표 형식 데이터 (생각 : CSV?)
  • 3D 데이터 (생각 : CityGML?)
  • 3D 포인트 캔 / LIDAR (생각 : LAS?)
  • 여기서 뭔가를 잊고 있습니까?

또한 공개 데이터 형식에 대한 문서가 있으면 공유하고 싶습니다.


2
벡터의 경우 geojson 및 kml을 고려할 수도 있습니다
neuhausr

1
이 링크를 보셨습니까? gis.stackexchange.com/questions/61744/…

4
데이터 교환 형식과 데이터 저장 형식을 구별해야합니다. 예를 들어 geojson은 훌륭한 데이터 교환 형식이지만 데이터 저장 형식으로 사용됩니다. 데이터 배포 형식 (예 : 데이터 교환)에만 관심이 있다고 가정합니다. 그 맞습니까?
Devdatta Tengshe

@DevdattaTengshe : 좋은 지적이야! 현재로서는 가장 편리한 교환 형식으로 데이터를 분배하는 것이 목적입니다.
Mark Verschuur

의견을 보내 주셔서 감사합니다. 또한 파일 형식 대 파일 크기에 대한 몇 가지 팁이 매우 유용합니다.
Mark Verschuur

답변:


5

비엔나시의 공개 데이터 이니셔티브 ( http://data.wien.gv.at )는 Geoserver를 사용하여 Geoserver WMS 및 WFS 서비스 를 통해 래스터 및 벡터 지리 데이터에 액세스 할 수 있습니다. 사용자는 오프라인에서 사용할 수있는 다양한 형식 (예 : geojson, KML 또는 압축 된 모양 파일)으로 데이터를 다운로드하거나 온라인지도 또는 GIS 프로젝트에 서비스를 임베드하여 실시간으로 서비스를 사용할 수 있습니다.


이것이 우리가 여기서하는 일입니다 : maps.gcc.tas.gov.au/data 비 공간 테이블에도 GeoServer를 사용할 수없는 이유는 없습니다.
Alex Leith

5

테이블 형식 CSV의 경우. Excel은 지나치게 복잡하고 최악의 경우 완전히 액세스 할 수 없습니다. 액세스에 액세스 할 수 없으며 PDF가 앞면이 때립니다.

지리 공간 사용 geojson의 경우 잘 지원되는 텍스트이며 다른 실행 가능한 형식 (shapefile)에 대한 기술적 제한이 없습니다. 또한 충분한 이유가없는 한 대부분의 사용자가 다른 상태에 있고 상태 평면을 원하지 않을 것이라는 점을 염두에두고 WGS84에 있어야합니다.


5

나는 연속 / 배열 데이터 (즉, 래스터)를위한 NetCDF 를 매우 좋아 한다. NetCDF의 장점은 다음과 같습니다.

  • NetCDF는 자체 설명이므로 (예 : 파일 헤더를 통해 데이터 정의를 사용할 수 있음) 보조 메타 데이터 파일을 제공 할 필요가 없습니다.
  • NetCDF4를 사용하면 n 차원 데이터를 디스크에 저장할 수 있습니다 (디스크에서 HDF5 데이터 형식 사용). 이는 OS에서 처리 할 수있는만큼 큰 파일을 허용하므로 보너스입니다. 이것은 합리적인 압축과 빠른 데이터 액세스와 함께 제공됩니다. NetCDF3는 n 차원 데이터를 지원하지 않으며 32 비트 시스템에서 파일 크기 제한은 약 2GB입니다.
  • NetCDF는 개방 형식이므로 일반적인 라이브러리를 통해 데이터에 액세스하는 것은 일반적으로 문제가되지 않습니다. 예를 들어, 파이썬에서는 scipy에서 데이터 조각을 읽을 수있을 정도로 간단합니다.
from scipy.io import netcdf
f = netcdf.netcdf_file('source.nc')
print(nc.dimensions) #take a look at the dimensions of the data
print(nc.variables)  #A dictionary containing all the variables
nc.variables["some_data"].dimensions #The dimensions this variable is in, e.g. lat, lon
out_array = nc.variables["some_data"].data
f.close() #and we're done

내가 볼 수있는 NetCDF4의 유일한 단점은 ArcGIS 및 QGIS와 같은 표준 GIS 패키지에서 크게 지원되지 않는다는 것입니다.

NetCDF를 지원하는 다른 패키지 편집

NetCDF를 지원하는 일부 표준 프로그래밍 언어 (공평하지만 HDF를 읽을 수있는 모든 것은 NetCDF4를 읽을 수 있음) :

수학 및 통계 사용자의 경우 :

특히 GIS에서 :

  • GDAL 이 데이터를 변환합니다
  • 마찬가지로 FME
  • ArcGIS 는 NetCDF를 지원합니다 (내 경험상 최상의 수준은 아니지만)
  • QGIS 플러그인 개발

NetCDF 파일을 빨리 보려면 NASA의 크로스 플랫폼 Panoply를 사용하십시오. 더 관심이 있으시다면 UCAR Unidata 에 소프트웨어 목록이 있습니다 .


NetCDF는 파이썬 외부에서는 실제로 지원하지 않는 끔찍한 선택입니다. 지원은 잘하지만 tiffs, png 및 jpeg는 문자 그대로 모든 언어를 지원합니다.
Calvin

2
나는 매우 동의하지 않습니다. NetCDF를 지원하는 빠른 패키지 목록을 표시하기 위해 위의 응답을 편집했습니다. 내 경험상 그것은 다차원 적 과학 데이터 (예를 들어 천문학과 기상학)를위한 선택 형식입니다. PNG 및 TIFF는 래스터 데이터를 배포하는 데 나쁘지 않으며 확실히 데이터를 보는 것이 쉽지만 대량의 다차원 데이터로 확장 할 수는 없습니다. 하지 마십시오 지금까지 과학적인 자료를 배포하는 JPEG를 사용 (당신이 누군가에게 그것을 완벽하게 잘 작동하는지도를 전송하는 경우지만).
om_henners

4

내가 말할 것:

  • 벡터 데이터의 쉐이프 파일 또는 GML
  • 3D 모델의 .obj 파일
  • 점 구름의 .xyz (단순 CSV)
  • 테이블 형식 데이터의 CSV
  • 래스터 데이터를위한 GeoTIFF

이러한 형식은 Open Source Software에서 쉽게 읽을 수 있으며 특정 응용 프로그램에 필요한 다른 형식으로 쉽게 변환 할 수 있습니다.

또한 데이터를 공개하기위한 +1!


2
벡터 데이터에 Shapefile과 GML을 제안한 이유를 알고 싶습니다. 둘 다 끔찍한 형식입니다. GML의 유일한 절약은 그것이 OGC 형식이라는 것입니다.
Devdatta Tengshe

1
셰이프 파일은 많은 응용 프로그램에서 읽을 수 있으며 문제없이 다른 것으로 변환 될 수 있습니다. 무엇을 제안 하시겠습니까?
til_b

3
shapefile을 피하십시오. 그들은 작동하지만 심각한 기술적 한계가 있습니다.
nickves

1
그렇다면 shapefile의 기술적 한계가없는 것은 무엇입니까?
til_b

2
@til_b GeoTIFF는 '열기'라는 관점에서 좋은 형식입니다. 그러나 저장 공간 (또는 다운로드로 제공)의 경우 파일이 커질 수 있으므로 끔찍합니다. 무손실 압축을 제공하는 개방형 래스터 형식을 알고 있습니까?
Mark Verschuur

1

SE : 지리 공간 데이터를 공개하는 데 가장 유용한 형식은 무엇입니까?

희망적으로 나는 거기에 내 대답을 인용하는 정책을 위반하지 않을 것입니다.

몇 가지 정부 데이터 세트에서지도를 작성하는 경험 :

포인트 데이터의 경우 "lat"및 "lon"열이있는 CSV가 가장 좋습니다. 텍스트 편집기, 스프레드 시트 등 광범위한 도구에서 작업하기가 매우 쉽습니다. 두 가지 단점이 있습니다.

  1. GDAL에는 .vrt동반자 파일이 필요 합니다.
  2. latlon열의 이름은 완전히 표준이 아닙니다. 많은 도구들은 그들이 받아들이는 것에있어 매우 자유 롭습니다.

선과 다각형의 경우 선호도의 내림차순으로 :

  1. 지오 존. 작업하기 쉽고 텍스트 편집기 또는 geojson.io 를 사용하여 편집하는 기능 은 정말 보너스입니다. 검색 / 바꾸기를하거나 이상한 물체를 몇 개 제거하거나 한 파일에서 다른 파일로 복사하여 붙여 넣어야 합니다. 또 다른 이점은 비 GIS 개발자가 이해할 수 있다는 것입니다. 내가 만난 문제는 누군가가 Point 대신 MultiPoint와 같은 데이터를 제공 할 때입니다.
  2. 셰이프 파일. 매우 널리 지원되지만 두 가지 불편한 점이 있습니다. 먼저 파일 모음이므로 .zip을 전달하고 압축을 풀어야합니다. 둘째, 필드 이름은 10 자로 제한됩니다. GIS가 아닌 일반 사용자를 위해 편집하기가 어렵습니다.
  3. KML / KMZ. 이것들은 종종 관련성이없는 크래프트 (스타일, 아이콘 등)를 많이 가지고 있으며, 속성은 때때로 미니 HTML 테이블로 인코딩되기 때문에 실제로는 작업하기가 어렵습니다. 최소한 Google 도구를 사용하여 쉽게 편집 할 수 있습니다.

그러나 솔직히 가장 좋은 대답은 "모두"일 것입니다. 모두에게 호의를 베풀고 CSV (if point), GeoJSON, 압축 된 Shapefile 및 KMZ로 데이터를 공개하십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.