비디오 및 이미지 데이터의 비용 ​​효율적인 장기 보관? ~ 50TB


16

우리 연구소는 우리 그룹이 현재 진행하고있는 프로젝트에 대한 데이터 (주로 비디오 및 이미지 데이터와 몇 개의 문서)를 보유한 작은 서버를 설정하는 중입니다. 역사적으로 연구 프로젝트가 끝나면 데이터가 하드 드라이브 하나 또는 DVD (또는 오래된 CD) 더미에 보관되거나 비디오의 일부가 Sony DV 카세트 또는 VHS 테이프 (이 실험실은 90 년대 초반부터 사용되었습니다) 또는 위의 모든 것들이 혼합되어 있습니다.

질문 : (1) 모두를 동일한 형식 및 저장 매체로 통합하는 가장 좋은 방법은 무엇입니까? (2) 매우 가끔 액세스하는 경우 (30 년 이상) 이러한 데이터를 장기간 보관하는 가장 좋은 방법은 무엇입니까? 불행히도 우리는 엔터프라이즈 수준의 예산이 없으며 (우리는 단지 ~ 10 명 실험실), 수십만 달러의 비용이 드는 일을 할 수 없습니다.

감사!

추신 : 우리의 오래된 비디오와 이미지의 해상도는 더 작지만 최근의 비디오는 크기가 크므로 실제로는 오래된 데이터의 경우 30 ~ 40TB, 최근의 데이터의 경우 10 ~ 20TB에 대해 이야기하고 다음에 매년 약 5TB를 추가한다고 생각합니다 .

답변:


22

불행히도, 당신에게 가장 좋은 방법은 없습니다. 디지털 미디어의 30 년 보관은 매우 어려운 문제이며 일상적인 투자가 필요합니다. 30 년 내에 읽을 수있는 유일한 형식은 비디오 형식이 아닌 ASCII 및 UTF8입니다. 스토리지 포맷 변경, 우리가 30 년 전에 사용했던 8 개의 트랙 릴-투-릴 테이프는 데이터가 여전히 테이프에 있어도 요즘 읽을 수없는 것입니다. 새로 복구 / 발견 된 Apollo 데이터 테이프를 얻는 것). 가장 좋은 방법은 오래된 형식을 새로운 형식으로 가져 오기에 충분한 예산으로 아카이브 환경을 평가하는 5 년마다 주기적으로 노력하는 것입니다.

당신은 아마 나보다 더 잘 알지만 비디오 환경은 빠르게 변하고 있습니다. 실시간 온라인 편집이 가능해 10 년 전만해도 아주 좋은 키트에서만 가능했습니다. 30 년 동안 어떻게 보일지 누가 알겠는가.

  • 보관 기간을 5 년 동안 설정하십시오.
    • 즉각적인 용어로 게으른 스토리지 배열이면 충분합니다 (
      • 크고 느린 50TB 디스크는 $ 70K 이하로 가능할 수 있습니다.
      • LTO5 테이프 드라이브와 50 개의 테이프 (50TB 이상)는 $ 15K 미만으로 구입할 수 있습니다.
  • 비디오를 저장하는 형식은 귀하에게 달려 있습니다.
  • 모든 오래된 자료를 찾아 새로운 저장소로 변환하십시오.
  • 5 년이 지나면 보관 환경에 대한 전체 평가를 다시 수행하십시오.
    • 어떤 형식을 사용하고 있습니까?
    • 최신 형식은 무엇입니까?
    • 어떤 코덱이 막 다른 것처럼 보이며 어떤 미디어를 그런 식으로 인코딩 했습니까?
    • 최신 스토리지 방법 (데이터 형식, 디스크 / 테이프 / 다른 것)으로 마이그레이션하는 방법을 결정하고 적절하게 지출하십시오.
  • 6 번 반복하십시오.

30 년이되어야합니다.


+1, 만약 당신이 정말로 싸고 자 노력하고 있다면, 아마도 10 년마다 이것을 할 수 있습니다. ATA-66 및 100 드라이브는 10 년 전에 가장 선호하는 HD였으며, 이들과 연결하는 기술은 여전히 ​​남아 있습니다. 그러나 이미 IDE 헤더가없는 컴퓨터가 이미 있으며 10 년이 지난 기술은 iffy되고 있습니다.
Chris S

6
복사에 대한 좋은 점은 +1이지만 형식을 읽을 수 없다는 주장은 -1입니다. 데이터를 복사 가능한 매체에서 사용할 수있게되면 해당 파일이 매우 홀수 형식이 아닌 한 해당 파일을 재생할 수 없게됩니다. MPEG2와 같은 매우 주류에 아카이브하는 것은 내구성있는 형식 일 가능성이 매우 높습니다. 손실 비디오 트랜스 코딩은 손실 프로세스입니다. 하지 말아야합니다. ... 주위에 주류 비디오 코덱을 유지하기 위해 아무것도 우리에게 많은 비용이 들지 않습니다
폴 맥밀런에게

@Paul 팁 주셔서 감사합니다. 내가 비디오 사람들을 마지막으로 걸었던 것은 7 년 전이었다. 그래서 나는 녹슬었다.
sysadmin1138

자세한 평가 및 팁에 대해 대단히 감사합니다! 우리는 불행히도 제한된 IT 예산으로 최선을 다할 것입니다. 모든 것이 기쁘고 serverfault.com이 도와 드리겠습니다.
hpy

예, 우리는 길을 왔습니다. 여전히 Windows 3.1에서 17 세 AVI 파일을 재생하는 데 아무런 문제가 없습니다. 요령은 이미 널리 사용되는 형식을 선택하는 데 있습니다.
Paul McMillan

11

나는 모든 방법으로 하나의 경고에 sysadmin1138의 게시물에 전적으로 동의합니다-당신이 정말로 원하는 것을 달성하기 위해 예산을 가질 것이라고 생각하지 않습니다.

작성해야 할 5 가지 주요 기능이 있습니다.

  • 표준화 된 콘텐츠 및 카탈로그 정책-모든 것을 하나의 형식으로 저장하고 싶지만 이미지의 경우 PDF와 비디오의 경우 H.264의 두 가지를 모두 고려해야합니다. 모두가 지원되는 다중 플랫폼 코드가있는 장기 지원 형식입니다. 전세계의 기존 사용으로 인해 25-50 년 동안 현재 형태로 한 당사자 또는 다른 당사자가 확실히 지원해야합니다.
  • 컨텐츠를 색인화하고 공개 할 카탈로그 또는 CMS.
  • '컨텐츠 수집'시스템-모든 미디어, 패키지, 인코딩, 저장 및 업데이트 각각의 새로운 컨텐츠를 가져옵니다. 수동 또는 자동 컨텐츠 품질 검사도 필요합니다.
  • 기본 컨텐츠 저장소-두 개의 기본 스토리지 블록이 있습니다. 트랜스 코딩 / 확인되는 동안 원본 컨텐츠를 보유하는 하나의 작은 하나와 컨텐츠를 '가까이'보유하는 훨씬 큰 블록. 이것은 내가 접한 RAID 6에 유일하게 유효한 용도 중 하나이지만 24x365 '듀티 사이클'이있는 엔터프라이즈 급 디스크를 사용하려고합니다.
  • 장기 백업 시스템-실제 자금을 사용할 수있는 곳입니다. 진정한 장기 백업 기능을 제공하는 공급 업체를 선택해야합니다. 내가 지금이 일을하고 있다면, 데이터 수명의 이유로 순수한 디스크에 테이프를 사용했을 것입니다. 아마도 IBM은이 분야에서 많은 경험을 가지고 있기 때문일 것입니다. 또한 정기적 인 테이프 복원 및 데이터 검증도 수행해야한다는 것을 고려해야합니다. 즉, 최소한 가장 큰 테이프만큼 큰 세 번째 스토리지 블록이 필요하며 물론 시스템도 검증해야합니다. 또한 사용하는 백업 소프트웨어가 오랫동안 사용되도록해야합니다. * nix의 TAR과 같은 기능은 잠시 동안있을 수 있지만 기능적으로 원하는 기능을 제공하지 못할 수 있습니다. 테이프 공급 업체가이를 간과하지 않도록하십시오.

그래서 당신이하고 싶은 일을 할 수 있습니다. 나는 지난 20 년 동안 여러 번 나 자신을 여러 번 해 보았습니다. 그러나 저렴한 것이 아무도 없습니다.

행운을 빕니다.


이미지 용 PDF는 꽤 끔찍한 방법으로 보입니다. 예, 문서의 경우에는 PDF이지만 출력 형식에 따라 이미지를 tiff 또는 JPEG로 유지하십시오. 그것들을 읽는 능력은 사라질 것 같지 않습니다.
Paul McMillan

팁 주셔서 감사합니다! 두 개의 수락 된 답변을 표시 할 수 있다면 이것에 대한 것입니다. :)
hpy

1
그건 괜찮아요, 1138 년이고 새싹입니다;)
Chopper3

2
솔직히 모든 종류의 CMS 시스템의 어려움은 시스템의 첫 번째이자 가장 오래된 부분 일 가능성이 높다는 것입니다. 모든 사람들에게 기본 설명이 포함 된 ASCII 텍스트 파일을 작성하여 원시 데이터와 함께 저장하도록 요구하는 것이 훨씬 나을 것입니다. 모든 CMS 또는 자동화 시스템은 몇 년 안에 구식이 될 것입니다.
Paul McMillan

3

다른 사람들은 미디어를 백업하는 방법에 대한 좋은 조언을했습니다. 의회 지침 라이브러리를 살펴 보는 데 좋은 시간을 보낼 것을 제안합니다.

http://www.digitalpreservation.gov/formats/index.shtml

저렴한 화이트 박스 ZFS 어레이 구축을 고려할 수도 있습니다. 당신은 아마도 $ 10k 이하로 당신의 필요에 맞는 무언가를 할 수있을 것입니다. 드라이브가 죽으면 더 큰 드라이브로 교체하므로 데이터 생성시 스토리지 용량이 늘어납니다. 아마 당신은 꽤 오랫동안 갈 것입니다, 그리고 그것이 오래되면 더 높은 용량의 장치로 교체 할 수 있습니다. 장점은 데이터가 온라인 상태이므로 (필요에 따라 액세스 할 수 있음) 비교적 많은 데이터가있을 때 심각한 문제인 비 트로트에 대해 비교적 잘 보호된다는 것입니다.

알맞은 빌드 옵션이 여기에 정리되었습니다.

http://www.zfsbuild.com/


2

기술자에게는 어렵 기 때문에 디스크와 기술에 대한 생각을 즉시 멈추는 것이 좋습니다. 비즈니스 문제를 결정해야 할 사항으로 나눕니다.

예:

  • 아날로그 / 기타 디지털 테이프 형식을 어떤 종류의 디지털 저장 장치에 저장할 수있는 디지털 미디어로 변환하는 방법은 무엇입니까?
  • 컨텐츠 및 관련 메타 데이터를 어떻게 관리 하시겠습니까? 보관이 용이합니다. LTO 테이프에 모든 것을 넣고 오래된 소금 광산에 보관할 수는 있지만 데이터에 액세스 할 수는 없습니다.
  • 바퀴를 다시 발명하고 있습니까? 대학에 다니는 경우 중앙에서 사용 가능한 컨텐츠 관리 솔루션이 있습니까? 또는 자체 컨텐츠 관리를 구매 / 구축해야하는 경우, 일부를 구매할 수있는 중앙 집중식 인프라가 있습니까? (테이프, 오브젝트 스토리지, SAN)
  • 실제 비즈니스 요구 사항은 무엇입니까? 정말로 무엇을 유지하고 싶습니까? 종종 문제의 핵심을 파헤칠 때 실제 장기 보존 요구 사항은 실제로는 작은 데이터 하위 집합에만 적용됩니다.

1

손실 형식으로 데이터를 저장 한 다음 다른 손실 형식으로 변환 한 다음 다른 형식으로 변환하면 전환 할 때마다 비디오 품질이 저하됩니다.

다음은 오디오에 대한 내용이지만 일반적으로 동일합니다.

모든 오디오 형식을 Ogg Vorbis로 변환 할 수 있습니다. 그러나 MP3와 같은 하나의 손실 형식에서 Vorbis와 같은 다른 손실 형식으로 변환하는 것은 일반적으로 나쁜 생각입니다. MP3 및 Vorbis 엔코더는 아마들을 수없는 오디오 파형의 일부를 버림으로써 높은 압축률을 달성합니다. 그러나 MP3와 Vorbis 코덱은 매우 다르기 때문에 오디오의 각기 다른 부분을 버릴 것입니다. MP3를 Vorbis로 변환하려면 MP3 파일을 WAV와 같은 압축되지 않은 형식으로 다시 디코딩하고 Ogg Vorbis 인코더를 사용하여 다시 압축해야합니다. 디코딩 된 MP3에는 MP3 인코더가 폐기하기로 선택한 원본 오디오 부분이 누락됩니다. 그러면 Ogg Vorbis 인코더는 데이터를 압축 할 때 다른 오디오 구성 요소를 버립니다. 기껏해야 결과는 원본 MP3와 같은 소리를내는 Ogg 파일이되지만 결과 파일은 원본 MP3보다 나빠질 가능성이 큽니다. 어떤 경우에도 원본 MP3보다 더 나은 사운드 파일을 얻을 수 없습니다.

많은 음악 플레이어가 MP3 및 Ogg 파일을 모두 재생할 수 있기 때문에 모든 파일을 한 형식 또는 다른 형식으로 전환해야 할 이유가 없습니다. Ogg Vorbis가 마음에 드시면 CD 같은 원본 무손실 오디오 소스에서 인코딩 할 때 사용하는 것이 좋습니다. 원본에서 인코딩 할 때 MP3보다 작거나 더 나은 품질 (또는 둘 다) 인 Ogg 파일을 만들 수 있습니다.

MP3에서 Ogg로 변환해야하는 경우 Freshmeat에서 여러 변환 스크립트를 사용할 수 있습니다.

http://www.vorbis.com/faq/#transcode

따라서 손실이없는 형식을 선택한 후에는 손실이없는 형식을 선택하는 것이 가장 좋습니다.


3
무손실 비디오는 현재 저장하기에 실용적이지 않습니다. 분당 영상을 보관하기에는 비용이 너무 비쌉니다. 현재 널리 사용되고있는 손실이 많은 코덱을 선택하고 미디어를 넣습니다.
Paul McMillan

무손실에 대한 좋은 점에 감사드립니다. 우리는 분명히 이것에 대해 열심히 생각할 것입니다.
hpy

1

아마도 내가 누락 된 것이있을 수 있습니다. 코덱의 소스 코드를 사용할 수있는 공개 형식을 사용하여 모든 것을 인코딩 할 수는 없지만 Amazon S3에 모두 고정시킬 수 있습니까?

그렇게하면 아마존은 데이터의 실제 저장에 대해 걱정해야하며 30 년 안에 C / C ++를 컴파일 할 수있는 컴퓨터가 없다면 정보를 얻을 수 있습니다 ...

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.