Areca 1280ml RAID6 볼륨 세트 실패

오늘날 우리는 최악의 시나리오에 부딪 쳤으며 모든 종류의 좋은 아이디어에 개방적입니다.

우리의 문제는 다음과 같습니다.

여러 전용 스토리지 서버를 사용하여 가상 머신을 호스팅하고 있습니다. 계속하기 전에 사양은 다음과 같습니다.

전용 서버 머신
Areca 1280ml RAID 컨트롤러, 펌웨어 1.49
삼성 1TB HDD 12 개

하나의 논리 볼륨을 포함하는 10 개의 디스크로 하나의 RAID6 세트를 구성했습니다. 시스템에 2 개의 핫 스페어가 있습니다.

오늘 하나의 HDD가 고장났습니다. 이것은 때때로 발생하므로 교체했습니다. 재 구축시 두 번째 디스크가 고장났습니다. 일반적으로 이것은 재미가 없습니다. 안정적인 RAID 재 구축을 위해 과도한 IO 작업을 중단했습니다.

슬프게도 핫 스페어 디스크가 재 구축되는 동안 실패하고 모든 것이 중단되었습니다.

이제 다음과 같은 상황이 있습니다.

컨트롤러는 공격대가 재건되고 있다고 말합니다
컨트롤러가 볼륨이 실패했다고 말합니다

RAID 6 시스템이고 두 개의 디스크가 고장 났으므로 데이터가 손상되지 않았지만 데이터에 액세스하기 위해 볼륨을 온라인으로 다시 가져올 수는 없습니다.

검색하는 동안 다음 리드를 찾았습니다. 그들이 좋은지 나쁜지 모르겠습니다.

모든 디스크를 두 번째 드라이브 세트에 미러링합니다. 따라서 우리는 이미 가지고있는 것보다 더 많이 잃지 않고 다른 일을 시도 할 수 있습니다.
R-Studio에서 배열을 다시 작성하려고합니다. 그러나 우리는 소프트웨어에 대한 실제 경험이 없습니다.
모든 드라이브를 꺼내고 시스템을 재부팅하고 areca 컨트롤러 BIOS로 변경 한 후 HDD를 하나씩 다시 삽입합니다. 어떤 사람들은 이것으로 시스템을 온라인 상태로 만들었다 고 말합니다. 어떤 사람들은 효과가 0이라고 말합니다. 어떤 사람들은 그들이 모든 것을 날려 버렸다고 말합니다.
"rescue"또는 "LeVel2ReScUe"와 같은 문서화되지 않은 areca 명령 사용
컴퓨터 법의학 서비스에 문의 하지만 우와 ... 전화로 1 차 추정치는 20.000 €를 넘었습니다. 우리가 친절하게 도움을 요청하는 이유입니다. 어쩌면 우리는 명백한 것을 놓치고 있습니까?

물론 그렇습니다. 백업이 있습니다. 그러나 일부 시스템은 1 주일 동안 데이터를 잃어 버렸으므로 시스템을 다시 시작하고 실행해야합니다.

도움, 제안 및 질문은 환영 이상입니다.

— 리차드
소스

나는 당신이 무엇을 하든지, 첫 번째 단계는 dd모든 디스크 의 미러가 되어야한다고 생각합니다 . 실제 솔루션에서 작업 할 때 더 많은 손상을 막고 대체 계획을 세우기 위해서입니다.

— Sven

우리는 이것을 할 것입니다 ...

— Richard

핫 스페어는 어떻습니까?

— Cawflands

공급 업체에 지원을 요청할 수 있습니까? 당신이 할 수 없다고 가정하고 (@SvenW의 훌륭한 제안에 따라 dd를 사용하여 모든 것을 미러링한다고 가정), 실패한 드라이브를 교체하고 재부팅하고 왜 발생하지 않는지보십시오. 나는 반드시 모든 드라이브를 뽑을 필요는 없으며 고장난 드라이브 만 가져옵니다. 그러나 실제로 첫 번째 베팅은 공급 업체이며 소프트웨어를 이해합니다.

— 제레미

해결책을 찾았습니까? 그렇다면 나중에 참조 할 내용을 알려주십시오.

— 그랜트

답변:

옵션 1이 최고라고 생각합니다.

12 개의 새로운 HDD, 1 개의 새로운 RAID 컨트롤러 가져 오기 리눅스 상자를 사용하여 오래된 디스크를 새 디스크에 1 : 1로 미러링하십시오 (dd if = of =). 1x 새로운 RAID 컨트롤러와 12x 새로운 HDD를 사용하여 새로운 서버를 구축하십시오

새 서버에서 어레이를 재구성하십시오. 성공? 큰. 중지.
재 구축에 실패 했습니까? 기존 디스크를 새 디스크로 다시 미러링하고 옵션 i + 1을 시도하십시오.

— 사이 피
소스

불행히도 이것은 매우 일반적인 시나리오입니다. 지난 몇 년 동안 Google에서 좋은 조사를 한 결과, 어레이를 재구성하는 동안 RAID로 데이터 손실이 발생할 수 있음이 밝혀졌습니다. 이는 심각도가 다른 여러 RAID 시스템에 영향을 줄 수 있습니다. RAID6 시나리오는 다음과 같습니다.

어레이에는 3 개의 데이터와 2 개의 패리티 디스크가 있습니다.
하나의 디스크를 잃어 버리면 모든 데이터를 복구 할 수 있습니다.
2 개의 디스크를 잃으면 데이터가 손실됩니다

왜 그런 겁니까?

다음에 대해 생각하십시오 : 데이터를 가지고 파일의 처음 3 블록에 다음 데이터 블록이 있다고 가정하십시오 : A1 + A2 + A3 및 다음 패리티 : Ap + Ap hdd1 ... hdd5에 앉아

데이터를 복구 할 수 없어서 1과 3 사이의 디스크 두 개가 손실되면 데이터가 손실되고 2 개의 패리티와 1 개의 데이터 블록이 있습니다.

이제 10 개의 디스크가있는 동일한 시나리오가 다를 수 있지만 데이터를 8 개의 블록으로 나누고 패리티를 2 개의 다른 드라이브에 저장하고 2 개의 핫 스페어를 갖는 것과 동일한 방식으로 처리 한 것 같습니다. RAID 컨트롤러 구성의 세부 사항을 알고 있습니까?

오프 사이트 백업에서 복구를 시작하고 (일부는 가지고 있다고 생각합니다) 서비스는 다시 Unix를 사용하여 드라이브를 이미지에 dd 및 루프 장치로 사용하여 가능한 많은 데이터를 복구하려고합니다.

http://wiki.edseek.com/guide:mount_loopback

RAID 컨트롤러가 사용하는 메타 데이터의 종류를 알아야하며 운이 좋으면 dmraid와 같은 일부 도구에서 지원됩니다.

그러나 파일이 여러 블록으로 분산되어 있기 때문에 데이터를 전혀 복구 할 수 없다는 의미는 아닙니다.

RAID에 대한 추가 정보 :

https://raid.wiki.kernel.org/index.php/RAID_setup

— 이스트 반
소스