천공 된 RAID 어레이에서 복구


10

여기 내 상황이 있습니다.

Dell Perc 7i 컨트롤러 (LSI 컨트롤러)가 장착 된 Dell 서버가 있습니다.

드라이브에 고장 예측 경고가 표시되어 지원을 요청했으며 드라이브가 나오고 교체되어 어레이가 자체 표준으로 재구성되었습니다.

2 주 후, 다른 드라이브에 고장 예측 경고가 표시됩니다. 드라이브 나 우연의 일치 등이 잘못되었을 수도 있습니다. 따라서 지원팀에 연락하여 더 깊이 살펴 봅니다. 나는 실패하지 않은 다른 드라이브 중 하나에 불량 블록이 있었고 그 불량 블록이 재구성 중에 복사되었음을 알고 있습니다. 그래서 지금 나는 사방에 나쁜 블록이 있고 그들은 천천히 내 배열을 죽이고 있습니다. 이것을 펑처 어레이라고합니다.

따라서 모든 드라이브를 교체하고 어레이를 재 구축하며 백업에서 복원하는 것이 좋습니다. 몇 주 동안이 문제가 발생하여 백업이 잘못되었다는 것을 제외하고 ... 이전 (1 개월 전)에서 백업에서 복원하면 데이터베이스에서 약 4 주 분량의 데이터가 누락됩니다. 우리 사무실에는 전혀 용납 할 수 없습니다

내 질문은 ... 데이터를 잃지 않거나 전체 (창 밖으로 던져서 다시 시작) 접근 방식 없이이 같은 것을 회복 한 사람이 있습니까?

내 시나리오를 다루는 하나의 링크를 찾았지만 상황에 대한 정보가 있는지 확실하지 않습니다 .http : //www.theprojectbot.com/raid/what-is-a-punctured-raid-array/

도움이나 지시를 부탁드립니다! 너희들은 어떻게 생각하니?

답변:


15

내가 생각하는 시스템이 여전히 작동 중이므로 가장 좋은 방법은 즉시 백업을 만들고 디스크 / 배열을 덤프하고 백업을 복원하고 복원하는 것입니다.

불량 블록이 항상 백업이 불량하다는 의미는 아닙니다. 성능 문제 나 파일 손상이 발생하지 않은 경우에도 백업은 복원을 완료 할 수있을 정도로 완료되어야합니다.

테스트하려면 최신 백업을 수행하고 가장 중요한 데이터를 검사하십시오. 여전히 손상이 없으면 백업이 양호 할 수 있습니다.

이 시점에서 백업이 양호하거나 지금 백업해도 파일 손실이 발생하지 않을 것이라고 100 % 확신 할 수 없으므로 위험이 따릅니다. 그러나 어쨌든 어레이 결국 실패하고 복원을 강제 실행하므로 이것이 유일한 옵션입니다.


나는 지금 모든 것이 잘 작동하는 것으로 보인다. 따라서 지금 시스템을 완전히 백업 할 수 있고 드라이브를 교체하고 어레이를 재 구축 한 후 전체 백업을 복원하면이 장애가 발생할 위험이 있습니까? 아니면 위험을 최소화하기 위해 OS 및 소프트웨어를 다시 설치하고 데이터베이스 만 복원하는 것이 더 좋습니까?
user72593

불량 블록은 일반적으로 파일 수준에서 발생하지 않습니다. 손상된 파일을 찾은 경우에만이 작업을 수행합니다.
Nathan C

@NathanC "나쁜 블록"을 얻지 못하면 데이터가 손상됩니다.
JamesRyan

@ user72593 오늘 파일을 백업 할 수 있다고해서 부품이 누락되지는 않습니다. 좋은 점을 확인하는 유일한 방법은 백업과 비교하는 것입니다.
JamesRyan

1
@JamesRyan "불량 블록"은 스왑, 임시 파일 또는 이전에 사용되었지만 현재 사용되지 않은 공간을 포함하여 디스크의 어느 위치 에나있을 수 있습니다. 드라이브에 불량 블록이 있다고해서 항상 데이터가 손실 된 것은 아닙니다 .
Nathan C

8

이 순간에 다음을 수행하십시오.

  • 이 시스템의 백업 회전 또는 오래된 백업 삭제를 중지하십시오. 현재 가지고있는 모든 백업을 유지하려고합니다.
  • 서버의 전체 백업을 수행하십시오.

디스크는 여전히 데이터가 손상되지 않았으며 새 전체 백업을 실행하는 데 아무런 문제가 없을 것입니다.

그런 다음 해당 디스크를 폐기하고 새 RAID 어레이를 작성하십시오. 준비가되면 방금 수행 한 백업에서 복원하십시오. 운이 좋으면, 그것이 당신이해야 할 전부입니다.

이것이 실패하면, 가장 오래된 것, 가장 오래된 것 등을 시도하십시오. 시스템의 기능을 테스트해야합니다. 부팅한다고해서 시스템이 완전히 작동하는 것은 아닙니다. 특히 데이터베이스의 손상 여부를 테스트하십시오.

이전 백업에서 전체 시스템을 복원해야한다면 괜찮습니다. 최신 백업을 수행하고 데이터베이스 파일 및 기타 중요한 파일 만 복원하십시오. 제대로 작동하는지 테스트하십시오. 다시 실패하면 가장 오래된 것부터 시도하십시오.

이 프로세스를 사용하면 데이터 손실이 최소화됩니다.


나는 그것이 내 질문에 대답하는 것을 본다. 내 백업이 손상되지 않는 한 나는 좋지만, 그렇지 않으면 ... 나는 그것을 처리해야합니다. 감사.
user72593

4

Grant와 Nathan C가 제공하는 답변은 백업 / 복원 처리 및 데이터 무결성 처리를 어떻게 진행해야 하는가에 관한 것입니다.

다음은 가상 디스크를 재 작성하고 백업에서 복원 할 때 RAID 세트를 처리하는 방법에 대한보다 명확한 세부 사항입니다.

  • 데이터를 제대로 백업했는지 확인
  • 기존 가상 디스크를 삭제하십시오. 이후에 모든 디스크가 "준비"상태로 표시되어야합니다.
  • 새로운 가상 디스크를 재 작성하십시오. 권장 설정 : 적응 형 미리 읽기, 후기 입 및 디스크 캐싱 비활성화
  • 백그라운드 초기화가 진행중인 온라인 가상 디스크가 있어야합니다.
  • 백업에서 복원을 진행하십시오. 백그라운드 초기화는 일반적으로 7.2K 스핀들에 대해 약 600GB / hr로 실행되므로 백업 복원이 그보다 더 빠르게 실행될 수 있으면 초기화를 시작하십시오. 복원.

참고 : 당신은 RAID5를 사용하고 있다면, 당신은해야 심각 RAID6이 시간을 사용하는 것이 좋습니다. RAID5는이 크기의 어레이에서 현재 업계 표준 모범 사례에 따라 비즈니스 크리티컬 데이터에 대해 신뢰할 수 없습니다. 대용량 SATA / NL-SAS 디스크는 또한 재 구축 중에 URE가 발생할 위험이 높으므로 처리중인 디스크와 같은 구멍이 생깁니다. RAID6는이 위험을 크게 줄이고 일반적으로 현재 사용 가능한 드라이브 용량이있는 중요한 데이터에 적합합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.