hdf5 대안


16

몇 년 동안 HDF5를 사용해 왔지만 데이터 세트의 크기가 커짐에 따라 여기에 나열된 것과 동일한 문제가 발생하기 시작합니다.

http://cyrille.rossant.net/moving-away-hdf5/

병렬 쓰기 지원-거대한 매트릭스의 청크 액세스 지원

내 일반적인 사용 사례는 100k x 100k 정수 행렬입니다. 논리적 관점에서 전체 파일로 사용하고 싶지만 병렬 작업자와 함께 덩어리로 덩어리를 작성해야합니다.


3
어떤 종류의 데이터 세트를 내 보내야하는지 설명해 주시겠습니까? 이것은 귀하의 질문에 대답하고자하는 사람들에게 도움이 될 수 있습니다. netcfd뿐만 아니라 HDF5도 고려했습니다. 그러나 이들은 특정 데이터 세트에 더 적합 할 수 있습니다.
찰스

2
압축 된 VTK는 청크를 지원합니다. 병렬로 많은 파일을 저장하고 PVD 메타 파일을 사용하여 함께 병합 할 수 있습니다. 데이터 세트의 크기는 얼마입니까?
Krzysztof Bzowski

편집 후 청크 된 VTK는 좋은 결정이 아닙니다.
Krzysztof Bzowski

무엇을 사용하게 되었습니까?
aidan.plenert.macdonald

@ aidan.penert.macdonald MPI로 병렬 쓰기를 사용하여 hdf5로 유지했습니다. 그러나 나는 파이썬을 포기해야했다
MG

답변:


7

HDF5는 어느 정도까지는 자체 파일 시스템입니다. B-Tree를 도입하고 블록을 관리하는 방식으로 파일 시스템의 기능을 복제합니다. 코드를 실행할 때는 입증되고 확장 가능한 파일 시스템이있는 운영 체제에서 코드를 실행할 수 있습니다. 따라서 원시 파일 액세스 또는 MPI-IO를 사용하여 숫자 원시 데이터를 단일 파일로 작성하고 메타 데이터 (인도, 크기, 속성 등)를 별도의 JSON 또는 XML 파일에 작성하는 것이 좋습니다. 여러 데이터 세트가있는 경우이를 디렉토리 또는 디렉토리 계층으로 구성 할 수 있습니다. 데이터 세트를 배포하려면 ZIP 파일로 압축하면됩니다.

유일한 단점은 엔디안 니스를 직접 처리해야한다는 것 입니다. 그러나 어렵지않습니다 .

이 작업을 수행하는 방법에 대한 영감을 얻으 려면 Dragly, et. 알. "A. 실험 디렉토리 구조 (Exdir) : 새로운 파일 형식을 도입하지 않은 HDF5의 대안"Front. Neuroinform., 2018, 12 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.