파일 손상에 대한 복구 보호 기능을 제공하는 아카이브 파일 형식은 무엇입니까?


10

외부 HDD를 사용하여 파일을 큰 보관 파일에 넣어서 백업합니다.

수천 개의 작은 파일이 있으며 외부 HDD로 보내기 전에 500MB ~ 4.2GB 크기의 아카이브에 저장합니다. 그러나 하나의 하드 디스크 오류가 전체 아카이브를 파괴하거나 아카이브에서 하나의 파일 만 파괴합니까? 뒤집힌 비트 하나가 아카이브의 큰 부분을 쓸모 없게 만들 수 있을까 걱정됩니다.

CRC 검사와 같은 것은 손상이 있음을 경고 할 수 있지만 손상된 아카이브에서 손상되지 않은 파일을 복구하는 기능에 더 관심이 있습니다. 아카이브 구조의 기본 설계 또는 보충 복구 도구의 존재를 통해 이러한 실패를 가장 효과적으로 복구 할 수있는 아카이브 파일 형식은 무엇입니까? zip 파일과 iso 파일간에이 기능에 차이가 있습니까?


파일 동기화에 사용하는 프로그램 중 적어도 하나는 멀티 스레드 복사를 지원하므로 작은 파일을 많이 복사하는 속도가 느려질 수 있습니다. 또한 확실하게 테스트해야하지만 압축을 사용하지 않더라도 많은 작은 파일의 아카이브를 만드는 것이 여러 개의 큰 파일의 아카이브를 만드는 것보다 시간이 더 걸릴 것이라는 의혹이 있습니다. 그러나 이것이 Windows 전용 문제인지 여부는 기억 나지 않습니다. iirc, Linux에서 사용할 수있는 작은 소프트웨어 파일이 블록 단위로 처리 될 수있는 몇 가지 소프트웨어 솔루션이 있지만 세부 사항을 기억할 수는 없습니다.
JAB

질문을 다시여십시오. 나는 그것을 다시 말했고, 지금은 더 분명해야합니다. "최고"는 항상 약간의 의견에 근거 할 것이지만 여기에서 최고가되기위한 요구 사항은 매우 분명합니다. 개인적인 오피니언을위한 작은 공간 IMHO. 다시 연 후에이 설명을 삭제하십시오.
Marcel

답변:


8

아카이브의 디렉토리 부분이 손상되면 전체 아카이브가 무용지물이 될 수 있으므로 백업 프로세스에 별도의 단계를 추가하여 소위 패리티 파일 을 생성하는 것이 가장 좋습니다 . 원본 파일의 데이터 블록이 손상된 경우 패리티 파일의 데이터를 원본 파일의 유효한 블록과 결합하여 재구성 할 수 있습니다.

변수는 당신이 고칠 수있는 피해량입니다. 단일 비트 플립으로부터 보호하려면 패리티 파일의 크기는 1 비트입니다. 디스크 섹터 크기의 조정으로 무언가를 원한다면 분명히 더 많은 비용이 듭니다.

이것 뒤에는 큰 이론이 있으며 ( 정방향 오류 수정 참조 ) 실제로 널리 사용됩니다. 예를 들어, CD가 일정 수준의 긁힘을 견딜 수있는 방법과 손실 된 연결에서 휴대 전화가 합리적인 통화 품질을 유지할 수있는 방법입니다.

간단히 말해 .par파일을 살펴보십시오 .


1
감사합니다, 패리티 파일을 검색하는 동안 매일 사용하는 WinRAR의 복구 기록이 더 간단하다는 것을 알았습니다. 나는 또한 QuickPar를 시도 할 것입니다.
sevenkul

2
1 비트의 오류 수정 데이터로는 n 비트 데이터 파일의 1 비트 오류 를 복구 하기에 충분하지 않습니다 . 단일 비트로 이러한 오류를 감지 할 수 있지만이를 복구하려면 최소한 n 비트 이상이 필요합니다.
Thom Smith

4

Bup [1]은 사물을 백업하고 패리티 리던던시를 자동으로 추가하여 비트 로트가 매우 적습니다. 치명적인 디스크 오류는 여전히 발생하므로 git-annex와 함께 사용할 수 있습니다.

git-annex [2]는 많은 리포지토리에 저장된 파일을 관리합니다. 그 중 일부는 컴퓨터, 썸 드라이브, ssh 로그인, 일부 클라우드 서비스 또는 bup 백업 리포지토리 [3]에 저장되어 파일 데이터가 훨씬 투명하게 흐릅니다. 요청하거나 자동으로 설정 한 저장소로. 또한 Haskell에서 Linux, mac, windows 및 android를 포함한 많은 플랫폼에서 실행되는 버전으로 작성된 무료 및 오픈 소스 소프트웨어 프로젝트입니다.

[1] https://github.com/bup/bup

[2] http://git-annex.branchable.com/

[3] http://git-annex.branchable.com/special_remotes/bup/


3

그러나 하나의 하드 디스크 오류로 인해 전체 아카이브 또는 하나의 파일 만 파괴됩니까?

모든 것을 하나의 큰 아카이브로 복사하는 것에 대한 대안이 없다면 압축 또는 압축되지 않은 아카이브를 사용할 것인지 결정해야합니다.

tarballs 와 같은 압축되지 않은 아카이브의 내용은 아카이브 파일 자체를 더 이상 읽을 수없는 경우에도 (예 : 손상된 헤더로 인해) 파일 복구 소프트웨어를 통해 여전히 감지 될 수 있습니다.

압축 파일을 사용하면 체크섬 오류가 발생하는 경우 파일의 추출을 거부 할 수 있으므로 아카이브 파일의 1 비트 만 변경 되어도 파일 압축을 거부 할 수 있습니다.

물론 하나의 압축 아카이브에는 수백 개의 파일을 저장하지 않고 하나의 압축되지 않은 아카이브에는 수백 개의 압축 파일을 저장하여 위험을 최소화 할 수 있습니다.

gzip *
tar cf archive.tar *.gz

나는 전에 야생 생물에서 tarball에 많은 gzipped 파일을 본 적이 없지만. 반대의 경우 만 인기가 있습니다 (예 : tar.gz 파일).

zip 파일과 iso 파일간에 차이가 있습니까?

ZIP은 압축 아카이브 (주로 반드시 그런 것은 아님)이며 ISO는 광 디스크에서 파일로 저수준으로 복사 된 원시 데이터를 나타내는 형식입니다. 후자는 말 그대로 모든 것을 포함 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.