롤백 기능이있는 중복 스토리지 시스템이있는 경우에도 백업이 필요합니까?


32

우리 조직은 최근 스토리지 시스템을 구입했습니다. RAID6과 함께 1.5Petabyte를 가지며 물리적으로 다른 위치에 온라인 동기화 미러가 있습니다.

시스템은 기본적으로 최대 30 일까지 롤백 / 파일 복구를 허용하지만이를 늘릴 수 있습니다.

스토리지에만있는 데이터에 대한 추가 백업이 필요한 경우 논의가 진행됩니다.

이 시스템은 중복성이 매우 우수하고 지리적 중복성이 있으며 어느 정도 롤백이 가능하여 정의 된 시간 (기본적으로 30 일)의 오래된 데이터 또는 실수로 삭제 된 데이터를 복구 할 수 있습니다.

이 시나리오에서 여전히 "전통적인"백업을하는 것이 합리적입니까? 전통적으로, 나는 문제가 생겼을 때 복구 할 수있는 스냅 샷이있는 전용 백업 시스템을 의미합니다.

우리는 정말로 그것을 필요로 하는가? 뭔가 빠졌습니까? 나는 단지 전통적인 방식으로 생각하고 열심 인 것입니까?


또한 스냅 샷을 다른 장치로 복제 할 수 있으면 Sven이 그의 답변에서 언급 한 문제를 극복 할 수 있습니다.
Drifter104

4
지리적 분리 및 스냅 샷 롤백 기능으로 인해 완전히 관련되어 있지만 완전히 중복 되지는 않습니다. RAID가 백업이 아닌 이유는 무엇입니까?
CVn

장소의 모든 키보드에서 "삭제"키를 제거하는 한 황금색입니다. ;-)
Tom Newton

1
확실히없는 것보다 낫습니다. 백업은 라이브 "사람 실수"가 아닌 매체에 저장하는 것이 여전히 좋습니다. 아직도, 당신은 당신의 질문에 대한 답을 알고 있지만 데이터에 가격을 책정하는 것과 관련이 있습니다. 행운을 빕니다.
Tom Newton

7
"롤백"기능도 볼륨 변경 사항에 적용됩니까? 예를 들어 누군가가 모든 볼륨을 제거하면 복구 할 수 있습니까?
vhu

답변:


40

설명은 지리적으로 분산 된 RAID의 필수 요소이며 RAID 는 결코 백업이 아니 었습니다 .

온라인 동기화는 일반적으로 공격자에 의한 (모든) 스냅 샷 및 / 또는 볼륨 삭제 또는 단순히 관리자 오류와 같은 작업을 포함하여 기본 스토리지에서 수행하는 모든 작업이 백업 시스템에 즉시 복제됨을 의미합니다.


3
또는 두 스토리지 모두 동일한 OS를 사용하기 때문에 소프트웨어 버그로 인해 데이터가 손상 될 수 있습니다. 가능성은 없지만 관리자 오류가 더 가능성이 높지만 가능합니다.
Sunzi

8
참된. 목표는 자동화 된 스냅 샷을 관리 할 수있는 사람이 없다는 것입니다. 그것은 실수에 대한 회복력을 제공해야합니다. 물론 실수로 백업을 삭제할 수도 있습니다.
nsn

2
@nsn 장치 소프트웨어의 버그 또는 관리 스크립트의 버그와 같은 다른 많은 관련 오류가 있습니다. 다른 곳에서 백업하지 않으면 벤더에게 작업을 맡기고 있습니다. 기꺼이 하시겠습니까? 또한 손실이 발생했을 때 피해를 계량화하십시오. 답은 데이터의 가치에 따라 달라질 수 있습니다. 회사는 그것없이 사라 졌습니까?
usr

2
@ nsn > 물론 실수로 백업을 삭제할 수도 있습니다. < -예. 그러나 예를 들어 백업이 오프라인 상태가되어 안전한 오프 사이트 저장소에 배치되면 훨씬 더 어려워집니다.
Rob Moir

7

30 일 롤백은 훌륭한 기능이지만 "필수적으로 중요한 파일 xyz"가 손상 / 손상되어 31 일 이상 후에 감지되지 않으면 어떻게됩니까? 이 상황은 백업 스케줄과 아카이브 스케줄의 차이점이지만 설명에서는 후자에 대해서는 언급하지 않았습니다. 보관 시스템은 일반적으로 매우 저렴한 테이프에 저장됩니다. 또한 비즈니스가 30 일 이상 데이터를 보존해야하는 규제 또는 기타 요구 사항이있는 비즈니스인지 여부에 대한 정보는 없습니다.

이것이 당신의 상황에 해당되지 않는다면, 당신은 좋을 것입니다.


3
예, 맞습니다 30은 다른 값을 설정할 수있는 기본값입니다. 어쨌든 오프라인 스토리지도 비용이 많이 들고 영원히 지속되지 않습니다.
nsn

2
나는 작년에 월 30 일을 더한 해에 1 년을 더한 30 일을 보내고 싶습니다. 중요하고 오래된 많은 파일이 사라졌으며 롤링 기간 내에 감지되지 않았습니다. 연간 백업은 생명을 구할 수 있습니다.
Brian Knoblauch

@BrianKnoblauch : 예. 온라인 스냅 샷 또는 오프라인 백업에 대해 이러한 종류의 구성표를 사용하는 것이 좋습니다.
Ben Voigt

6

데이터가있는 지리적으로 분리 된 시스템을 갖는 것이 좋습니다.

두 사이트 또는 모든 사이트와 관련하여 여러 번 실패하면 어떻게됩니까? 하나의 화재, 다른 서버의 도난? 또는 그들 사이의 회선에 문제가있는 경우 기본 위치의 서버가 꺼지고 HD 컨트롤러가 원숭이를 보내며 정크를 씁니까? 아니면 일부 내부자는 두 가지 모두에 악의적 인 행동을합니까? 또는 FBI는 의심으로 인해 두 위치에서 서버를 압수합니다 (아마도, 그러나 schmucks와 함께 데이터 센터에 공동 호스트되어있을 수도 있습니다). 또는 .. 모든 것이 중복되어 n도 수준으로 분석 된 여러 개의 "클라우드"중단이 생각 나지만 여전히 문제가 발생할 수 있습니다. 나는 당신에게 이것들이 모두 가능하지 않다는 것을 허락 할 것입니다, 그러나 당신은 거의 일어날 수없는 일이 있다는 것을 인정했습니다.

그렇다면 그 데이터가 얼마나 중요하고 귀중한가에 달려 있습니다. 조직이 사라지면 어떻게합니까?


3
위치가 두 개인데 둘 다 잃어버린 경우 백업을 잃어버린 것 같습니다. 이 답변의 대부분은 백업을 선호하는 주장이 아니라 둘 이상의 사이트에 대한 복제에 대한 주장입니다.
Ben

2
그것은 영원히 간다. 중복 레벨을 추가 할 때마다 지리적으로 또는 디스크로 인해 실패 할 것으로 예상 할 수 있습니다. 중복 디스크가 n 개인 경우 항상 "n + 1이 끊어 질 경우"를 물어볼 수 있습니다. 서버 실과 백업 실에서도 화재가 발생할 수 있습니다. 내부 작업도 두 가지를 모두 공격 할 수 있습니다. 페일 세이프 시스템은 100 % 없습니다. 여기에서 그러한 설정이 "전통적인"서버 + 백업과
같은지

1
@nsn이 큰 지적을한다고 생각하지만 이러한 답변 중 많은 부분에서 얻은 교훈은 백업을 스토리지 미디어와 별도의 기술 인프라에 존재하는 것이 좋은 생각이라는 것입니다. 기술이 훨씬 어려워지기 때문입니다. 전파하지 못하고 악의적 인 행위자가 두 가지 모두를 감염시키는 것이 더 어렵습니다 (단, 더 단단합니다). 우리는 중복 시스템에서 버그가 발생하는 버그를 정기적으로 발견합니다. 다른 솔루션 / 공급 업체가 참여하면 도움이됩니다. 이러한 헤징은 여전히 ​​진행 중이지만 대부분의 경우 기술 분리 수준이 합리적으로주의해야한다고 생각합니다.
Nick

@ Nick, 당신은 매우 유효한 의견이 있다고 생각합니다. 나는 그것을 대답 할 것입니다.
nsn

4

여기서 문제는 고 가용성 / 중복 인프라가 아닌 백업 전에 복제 된 데이터 사본의 연결이 끊어지고 지리적으로 뚜렷이 구분되는 것입니다. 내 직감은 당신이 가까이 있지만 여전히 백업이 필요하다는 것입니다.

다른 답변과 의견에 몇 가지 생각을 모으기 위해 (체리 피킹) "잘, X 기술은 Y 재해 시나리오를 다루지 않으므로 백업이 아닙니다." 당신은 당신에게 합리적인 것을 결정해야하며, 이것이 당신이 묻는 이유 인 것 같습니다. 이것에 대한 나의 느낌과 많은 의견가들의 생각은 백업이 사용중인 데이터와 별도의 기술 인프라에 존재해야 실패, 사고 및 악의적 인 행동이 전파되거나 전파 될 수 없다는 것입니다 훨씬 더 높은 장애물입니다. 의견에 주어진 예는 볼륨을 삭제하는 사람입니다. 이는 필자가 생각하기에 하늘이 아닌 시나리오입니다. 그러나 또한 내 작품의 실제 예입니다. 내가 일하는 대학교 t)이 인프라를 관리하려면) 많은 캠퍼스 시설을 지원하는 심각한 고 가용성 가상화 인프라가 있습니다. 여러 사이트에 있지만 모두 하나의 공급 업체 플랫폼에서 실행되고 있습니다. 언젠가 모호한 버그가 발생하여 단일 서버를 먼저 중단시키는 장애 캐스케이드가 발생했으며,로드가 이동하면 나머지 사이트가 제거되고,로드가 다시 이동하면 다른 사이트 호스팅이 제거되었습니다. 그 인프라. (그 이후로이 문제가 해결되었다고 생각합니다). 이 경우에는 데이터가 손실되지 않았지만 데이터가 있던 시나리오가 상상 가능합니다. 언젠가 모호한 버그가 발생하여 단일 서버를 먼저 중단시키는 장애 캐스케이드가 발생했으며,로드가 이동하면 나머지 사이트가 제거되고,로드가 다시 이동하면 다른 사이트 호스팅이 제거되었습니다. 그 인프라. (그 이후로이 문제가 해결되었다고 생각합니다). 이 경우에는 데이터가 손실되지 않았지만 데이터가 있던 시나리오가 상상 가능합니다. 언젠가 모호한 버그가 발생하여 단일 서버를 먼저 중단시키는 장애 캐스케이드가 발생했으며,로드가 이동하면 나머지 사이트가 제거되고,로드가 다시 이동하면 다른 사이트 호스팅이 제거되었습니다. 그 인프라. (그 이후로이 문제가 해결되었다고 생각합니다). 이 경우에는 데이터가 손실되지 않았지만 데이터가 있던 시나리오가 상상 가능합니다.

백업이이 모든 것에 영향을받지 않고 인프라가 다운 된 상태에서도 액세스 할 수 있기를 원합니다. RAID가 재 구축되는 동안 일주일 동안 데이터를 사용할 수없는 경우 백업에서 업무상 중요한 문서를 복구 할 수있는 것이 좋습니다 (필수는 아님). RAID가 사라지면 다른 사이트로 복제하는 경우 별도의 공급 업체 또는 테이프와 같은 격리 된 미디어에서 백업을 수행하는 것이 좋습니다.

이 모든 것이 말했듯이 백업은 데이터와 별도의 인프라에 있어야한다는 것을 다시 반복하겠습니다. 여기에는 많은 수준의 격리가 있지만 직접 복제를 통해 연결된 것은 백업에 너무 가깝다고 생각합니다. 당신은 또한 무언가를 원할 것입니다.


1

가정 : 스토리지 시스템은 많은 응용 프로그램에서 사용됩니다.

별도의 백업 시스템을 사용하면 훨씬 더 잘할 수 있다고 생각합니다.

RAID 및 미러링은 백업이 아니지만 내장 롤백 기능이 기존 백업 시스템을 대체 할 수 있습니다.

그러나:

다음과 같은 이유로 복구 정책이 스토리지 기반이 아닌 애플리케이션 / 데이터 기반 인 것을 선호합니다.

  1. 응용 프로그램은 복구 및 허용 가능한 데이터 손실과 관련된 요구 사항이 다릅니다 (일부 읽기 전용 매체, 암호화, 지난 X 년 유지 등의 다양한 규정에 의해 부과됨)
  2. 일부 응용 프로그램에는 (아주) 훌륭한 백업 및 복구 도구 (oracle, mssql)가 내장되어 있으며 백업 / 복구 부분을 수행하는 방법을 권장합니다 (Oracle DBA로서 Oracle을 선호하며 rman을 사용하여 Oracle과 관련된 모든 백업을 수행합니다).
  3. 증가, 공간 사용이 훨씬 빠르게 증가 할 수 있습니다. 이제이 시스템은 30 일의 롤백 데이터를 수용 할 수 있습니다. 이는 향후 보장되지 않습니다.
  4. 저렴하고 몇 년의 성장 후에 백업 / 복구 정책을 수용하기 위해 더 큰 테이프를 사용하는 비용은 현재와 동일한 롤백 창을 유지하기 위해 새롭고 더 큰 디스크를 구입하는 비용보다 작습니다
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.