DL380 G5, RAID5, ext3, RAID 실패


9

우리는 RAID5 어레이에 5 개의 300GB SCSI 3.5 ''디스크가있는 구형 HP DL380G5 서버가 있으며 외부 베이에 ext3 파일 시스템의 논리 볼륨으로 포맷되어 1.2TB의 민감한 임상 환자 데이터를 호스팅합니다.

두 개의 디스크가 hpacucli에서 예측 실패를 보였으므로 먼저 디스크 중 하나를 교체하여 문제가없는 것을 보았지만 "재 구축 준비 완료"라고 표시되지 않았습니다. 나는 두 번째 것도 완전히 부주의하게 변경했으며 이제는 RAID에 FAILED가 있다고 말합니다.

이전 디스크를 다시 반환하고 서버를 다시 부팅하려고했지만 부팅 중에 복구 모드로 전환되어 논리 볼륨을 찾을 수 없다고 말합니다.

이것을 복원하려고 할 수있는 일이 있습니까? 불행히도 백업이 없습니다. 어떤 도움이라도 정말로 감사하겠습니다!

오래된 드라이브를 모두 되돌릴 생각이 있는데 이것이 RAID를 부활시킬 가능성이 있습니까?


의견은 긴 토론을위한 것이 아닙니다. 이 대화는 채팅 으로 이동 되었습니다 .
Michael Hampton

4
귀하의 그룹이 지금 백업을 시작한다고 상상합니다. 그것이 필요 또는 비용의 문제라면, 이것은 상당히 명확한 경고 샷이어야합니다.
Jonathon Reinhart

답변:


25

죄송 해요. 그러나 이것은 운영자 오류입니다.

RAID5 어레이에 2 개의 장애가 발생한 디스크가 있으며 어레이가 유지할 수있는 것보다 많은 디스크를 제거했습니다.

백업없이이 작업을 수행하는 것이 더 큰 실수입니다.

손상된 논리 드라이브에서 데이터를 검색하려면 데이터 복구 회사에 문의해야합니다.


1
그는 그것이 운영자의 실수라는 것을 알고있는 것처럼 들린다.… 그가 지금 무엇을 할 수 있는지 묻지 않는 이유는 없다
StarWeaver

@StarWeaver 예 ... 데이터 복구 회사에 문의하는 것이 적절한 다음 단계입니다.
ewwhite

11

시스템 전원을 다시 켜지 마십시오. 종료하고 데이터 복구 서비스를 호출하십시오. 이 유형의 장애를 원격으로 복구 할 수있는 여러 서비스가 있습니다. 이 시점에서 당신이 할 수있는 모든 것은 그것을 악화시키는 것입니다.

여기에는 종종 모든 드라이브를 잘 알려진 HBA (RAID 카드 나 기타 컨트롤러가 아닌)에 직접 연결하고 원격 관리 도구를 사용하여 특정 다운로드 가능한 Linux 이미지를 시작하는 것이 포함됩니다. 그런 다음 회사는 원격으로 시스템에 액세스하고 디스크 상태를 평가하고 남아있는 모든 RAID 메타 데이터를 복구합니다. 독점 소프트웨어를 사용하여 가상 RAID 디스크 (기술적 인 세부 사항 : 종종 표준 Linux 장치 매퍼 시스템에 연결되는 것)를 다시 조립할 수 있습니다. 그러면 RAID 읽기 전용 소프트웨어 내 (RAID SoC 가속기가없는)가 노출됩니다. 다음 단계는 데이터가 사용 이상으로 손상되지 않았는지 확인하고 가상 디스크를 새 디스크로 복제하여 데이터 복구를 완료하는 것입니다. 그 후에 시스템을 백업하고 실행하는 것에 대해 걱정할 수 있습니다.

여기서는 서비스 이름을 지정하지 않겠지 만 대부분의 서비스는 쉽게 찾을 수 있으며 원격 서비스를 사용하는 사람들에게는 편리합니다 (RAID 드라이브 + 복구 드라이브 배송 시간을 절약하고 복구 + 복제 및 그런 다음 다시 전송) 데이터를 실제로 떠나지 않는 이점을 얻을 수 있습니다.


소량의 희소식 : RAID 컨트롤러 (또는 사용자)가 디스크에 새 데이터를 쓰지 않고 사전 오류 경고가 실패 경고가 아닌 한 실제로는 99.9999 %의 확률이 있습니다 우수한 데이터 복구 팀은 모든 데이터를 복구 할 수 있으며 합리적으로 빠르게 복구 할 수 있습니다.


5

다시 : 오래된 드라이브를 복원합니다.

RAID가 그대로 죽었으므로 두 개의 사전 실패 드라이브를 다시 시작하면 손실이 거의 없습니다.

원래 베이에 설치하십시오.

사전 장애가 발생하지 않았으므로 데이터를 구할 수있을 정도로 오랫동안 실행될 가능성이 있습니다.

공격대가 단순히 나타나지 않을 가능성이 있으며, 컨트롤러가 공격대를 "재설정"(아니오 / 취소 선택)하도록 요청할 가능성이 적으며, 공격대 관리자가 자동으로 공격대를 재설정하여 가치를 무효화 할 수있는 작은 기회 데이터 복구 회사가 추가했습니다.

따라서 RAID가 등장 할 때 최우선 순위는 데이터를 차단하는 것입니다. 즉, 사용 가능한 1.2TB 이상의 공간이 있고 데이터를 복사 할 준비가 되었으며 Linux 케이스 와 같은 도구 robocopy또는 xcopy32Linux 도구 rsync 를 실행할 준비가 된 것입니다. 드라이브가 마지막 분을 낭비하는 경우 매뉴얼 페이지를 읽고 구문을 파악하는 데 시간을 낭비하고 싶지 않습니다.


데이터가 안전 해지면 새 드라이브를 사용하여 RAID를 RAID6로 다시 만드십시오. 300GB의 용량을 줄이지 만 2 개의 드라이브 허용 오차를 얻습니다. 또는 추가 드라이브를 추가하고 6 개가 넘는 raid10을 고려하십시오. 또는이 기계를 완전히 폐기하십시오. G5는 10 년이 넘었으며 더 이상 중요한 생산 작업에 적합하지 않습니다.

부팅을 시도하지 말고 적절한 백업 솔루션을 설정하십시오. 다음에 올 것이다.


2
명확하게 말하면, 작지만 제로가 아닌 기회는 모든 상용 데이터 복구 회사가 귀하를 돕는 데 어려움을 겪을 가능성이 있습니다. 개인적으로 나는 공습을 재 조립하려고 노력하고 있는데, 그것이 효과가 없다면 재고를 가져 가라.
Criggie
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.