저는 지구 물리학 박사 학위를 받았으며 많은 양의 이미지 데이터 (수백 GB, 수만 개의 파일)를 다루고 있습니다. 나도 svn
과 git
상당히 잘 함께 쉽게 작업 할 수있는 기능과 함께 프로젝트 역사를 소중히 디스크 손상에 대한 보호를 갖게. 내가 찾아 git
도 일관된 백업을 가진 매우 유용하지만 난 그 자식 효율적 이진 많은 양의 데이터를 처리 할 수없는 것을 알고있다.
석사 연구에서 비슷한 크기의 데이터 세트 (이미지)를 작업했으며 다른 서버 / 장치의 다른 버전을 추적하는 데 많은 문제가있었습니다. 네트워크를 통해 100GB를 확산시키는 것은 실제로 재미가 없으며 많은 시간과 노력이 들었습니다.
나는 과학의 다른 사람들도 비슷한 문제가있는 것으로 알고 있지만 좋은 해결책을 찾지 못했습니다.
기관의 저장 기능을 사용하고 싶기 때문에 "덤"서버를 사용할 수있는 것이 필요합니다. 또한 휴대용 하드 디스크에 추가 백업을하고 싶습니다. 가능하면 네트워크를 통해 수백 GB를 전송하지 않기를 원하기 때문입니다. 따라서 둘 이상의 원격 위치를 처리 할 수있는 도구가 필요합니다.
마지막으로, 다른 연구원이 사용할 수있는 것이 정말로 필요하므로 매우 간단 할 필요는 없지만 몇 시간 안에 배울 수 있습니다.
나는 많은 다른 솔루션을 평가했지만 아무도 그 법안에 맞지 않는 것 같습니다.
- svn 은 다소 비효율적이며 스마트 서버가 필요합니다.
- hg bigfile / largefile 은 하나의 리모컨 만 사용할 수 있습니다
- git bigfile / media 는 하나의 리모컨 만 사용할 수 있지만 매우 효율적이지 않습니다.
- 다락방 에 통나무 나 다른 능력이없는 것 같습니다
- bup 은 정말 좋아 보이지만 작동하려면 "스마트"서버가 필요합니다
나는 git-annex
(그리고 훨씬 더) 필요한 모든 일을 시도 했지만 사용하기가 어렵고 잘 문서화되지 않았습니다. 나는 그것을 며칠 동안 사용해 왔으며 머리를 감쌀 수 없었으므로 다른 동료가 관심을 가질 것 같지 않습니다.
연구자들은 대규모 데이터 세트를 어떻게 처리하고 다른 연구 그룹은 무엇을 사용합니까?
분명히, 나는 주로 특정 연구자들만이 아니라 다른 연구자들이이 상황을 어떻게 다루는 지에 관심이있다. 거의 모든 사람 이이 문제를 겪어야하는 것처럼 보이지만 해결 한 사람은 모르겠습니다. 원본 데이터의 백업을 유지하고이 버전 관리 기능을 모두 잊어야합니까? 다른 사람들이하는 일입니까?