RAID-5 : 두 개의 디스크가 동시에 고장 났습니까?

21

Seagate Barracuda 3TB SATA 디스크 5 개가 포함 된 RAID-5 어레이와 함께 CentOS를 실행하는 Dell PowerEdge T410 서버가 있습니다. 어제 시스템이 다운되었습니다 (정확히 모르겠으며 로그가 없습니다).

RAID 컨트롤러 BIOS로 부팅 할 때 5 개의 디스크 중 디스크 1은 "누락"으로 표시되고 디스크 3은 "성능 저하"로 표시됩니다. 디스크 3을 강제로 백업하고 디스크 1을 새 하드 드라이브 (같은 크기)로 교체했습니다. BIOS가이를 감지하여 디스크 1을 다시 작성하기 시작했지만 % 1에 멈췄습니다. 회전 진행률 표시기는 밤새 번쩍이지 않았습니다. 완전히 얼었다.

내 옵션은 무엇입니까? 전문적인 데이터 복구 서비스를 사용하는 것 외에 재 구축을 시도 할 수있는 방법이 있습니까? 두 개의 하드 드라이브가 어떻게 그렇게 동시에 고장날 수 있습니까? 지나치게 우연한 것 같습니다. 디스크 1이 고장 났을 수 있으며 결과적으로 디스크 3이 "동기화되지 않았습니까?" 그렇다면 "동기화"상태로 되돌릴 수있는 유틸리티가 있습니까?

— 마이크 url 더
소스

20

예, 큰 sata 디스크는 그렇게하는 경향이 있습니다. 이중 장애에 노출되는 동안 3TB를 재 구축하는 데 많은 시간이 걸립니다. 따라서 이것은 예상되는 것이므로 그러한 구성을 사용하는 RAID-5는 절대 권장하지 않습니다.

— MichelZ

9

과연. 이상적인 세계 드라이브 고장률은 무작위로 분배됩니다. 실제로, 이것은 일어나지 않습니다-그들은 일반적으로 동일한 배치에서 구입하고 동일한 스트레스를받습니다. 즉, 모두 동시에 수명이 다하기 시작합니다. SATA 디스크에서 복구 할 수없는 오류율을보기 전에도로드가 갑자기 바뀌면 몇 가지 '가장자리를 넘어 설'수 있습니다. 어쨌든-나는 나쁜 소식은, 당신이 그 드라이브 중 하나를 온라인으로 얻을 수 없다면 백업을 꺼낼 때입니다.

— Sobrique

6

serverfault.com/questions/339128/…

— MichelZ

5

지금은 그다지 도움이되지 않지만 FYI 만 알고 있습니다. 일반적인 합의는 1TB보다 큰 드라이브에 RAID6을 사용하는 것입니다 (7200rpm에 관해 이야기 할 때도 마찬가지입니다).

— pauska

2

RAID 5는 내결함성을 제공하지만 타협 옵션입니다. N + 1 복원력이 있지만 큰 드라이브가있는 경우 두 번째 결함이 발생할 수있는 큰 창이 있습니다. RAID-6은 N + 2 내결함성을 제공하며 일반적으로 양호한 것으로 간주됩니다 (3 중 실패 확률이 훨씬 낮음). 그러나 더 비싼 디스크 (예 : 저렴한 SATA 드라이브는 아님)의 고장률도 확인할 수 있습니다.

— Sobrique

24

당신이 나쁜 대답 을 받아 들인 후에 , 나는 나의 이단 의견 (이러한 배열을 이미 여러 번 저장했습니다)에 대해 유감스럽게 생각합니다.

당신의 두 번째 오류가 발생한 디스크는 아마 사소한 문제, 어쩌면 블록 장애를 가지고있다. 이것이 바로 나쁜 raid5 펌웨어 의 잘못된 동기화 도구가 충돌 한 이유입니다.

낮은 수준의 디스크 복제 도구 (예 : gddrescue 가 매우 유용 할 수 있음)를 사용하여 섹터 수준 복사본을 쉽게 만들고이 디스크를 새 디스크로 사용할 수 있습니다 3. 이 경우, 약간의 데이터 손상으로 어레이가 살아 남았습니다.

이 경우 정통 답변의 본질은 "공격 5의 다중 실패, 묵시록이 있습니다!"

아주 좋은 이중 공격대를 원한다면 리눅스에서 소프트웨어 공격대를 사용하십시오. 예를 들어, 공격적인 수퍼 블록 데이터 레이아웃은 공개적이고 문서화되어 있습니다.이 또 다른 이단 의견에 대해 정말 죄송합니다.

— 피터는 모니카 복직을 말한다
소스

8

안타깝게도 투표권을 얻지 못 했으므로 실제로는 OP가 다른 일부와 달리 혼란을 해결하도록 도와줍니다. +1

— Vality

3

@Vality 그것은 혼란을 해결하려고 시도하지 않고 그의 문제를 확장합니다. 손상된 블록이 손상된 raid5는 무결성 검사를 통과하지만 정기적으로 성능이 저하되므로 통증이 없습니다. 또한 그는 어떤 데이터가 손상되었는지 모를 것입니다. 표준 솔루션이되는 블록을 수정하는 것만 큼 쉬웠습니다.

— JamesRyan

4

@JamesRyan 나는 그것이 나중에 문제를 일으킬 것이라는 데 동의하며 여기에는 근본적인 문제가 있다는 것에 동의합니다. 그러나 일부 기능을 다시 얻는 방법에 대한 유효한 솔루션을 제공하며 OP가 데이터 복구 전문가에 대해 이야기했을 때 데이터를 다시 가져올 수있는 백업이 없다고 가정 할 수 있습니다. 결국이 솔루션은 수정의 일부일뿐입니다. 일단이 방법으로 시스템이 다시 부팅되면 파일 시스템을 5 개의 새 디스크로 전송 한 다음 백업해야합니다.

— Vality

1

"블록 복사 도구의 섹터 수준 복사본을 쉽게 만들 수 있습니다"이것이 실제로 작성하려는 것입니까?

— Arnaud Meuret

1

@ MikeFurlender 하드웨어가 더 빠르지 만 독점적이라고 생각하므로 실패 할 경우 똑같은 컨트롤러를 가져와야합니다. 소프트웨어 RAID는 하드웨어와 무관합니다. btrfs 및 zfs를 참조하십시오.

— Martin Ueding

38

이중 디스크 오류가 있습니다. 이는 데이터가 사라 졌음을 의미하며 백업에서 복원해야합니다. 이것이 우리가 큰 디스크에서 RAID 5를 사용하지 않아야하는 이유입니다. 레이드를 설정하여 두 개의 디스크 장애, 특히 큰 느린 디스크에서 항상 견딜 수있는 기능을 갖기를 원합니다.

— 바질
소스

3

RAID5에는 두 가지 문제가 있습니다. 하나 : 느린 SATA 드라이브가 클 수 있으므로 3TB의 재 구축 시간으로 인해 복합 오류 가능성이 높아집니다. 다른 하나는 복구 할 수없는 비트 오류율입니다. 대부분의 SATA 드라이브의 사양 시트는 1/10 ^ 14이며 이는 약 12TB의 데이터입니다. 5 가지 방식의 3B RAID는 재구성이 필요할 때 거의 불가피합니다.

— Sobrique

1

3TB 5 드라이브 어레이에서 RAID5를 사용하는데, 첫 번째 어레이의 복제본으로 사용할 두 번째 어레이를 얻는 것과 관련이있었습니다. 이렇게하면 데이터를 잃어 버릴 때 두 어레이에서 동시에 하나의 디스크가 실패해야하므로 4 개의 디스크가 필요하지만 여전히 사용 가능한 용량의 많은 양을 유지합니다. 이것을 읽은 후 이제 두 번째 배열을 얻기 위해 해당 시간 프레임을 단계적으로 늘릴 수 있습니다.

— War

1

디스크에 불량 블록이있을 수 있습니다. 전문적인 sysadmin이 왜 블록 레벨 복사 도구를 듣지 못했는지 궁금합니다.

— peterh는 모니카 복원

1

@Wardy, 6은 겁내지 않을까요?

— 바질

3

도움이되지 않는 답변입니다. 물론, RAID 5에서 이중 디스크 오류가 발생하면 복구 가능성이 좋지 않습니다. 그러나 RAID 5에서 대부분의 이중 디스크 오류는 하나의 디스크 결함과 다른 디스크의 수정되지 않은 읽기 오류로 인한 것일 수 있습니다. 이 경우 올바른 도구를 사용하면 대부분의 데이터를 복구 할 수 있습니다. 그러한 도구에 대한 포인터가 도움이 될 것입니다.

— kasperd

37

옵션은 다음과 같습니다.

백업에서 복원
- 당신은 어떻게 당신은 백업을하지 않아도? RAID는 백업이 아닙니다.
전문적인 데이터 복구
- 매우 비싸고 보장되지는 않지만 전문적인 복구 서비스가 데이터를 복구 할 수 있습니다.
데이터 손실을 수용하고 경험을 통해 배우십시오.
- 주석에서 언급 한 바와 같이, 재구성하는 동안 이중 오류가 발생하여 어레이가 실패 할 수 있으므로 RAID 5 구성에는 대형 SATA 디스크를 사용하지 않는 것이 좋습니다.
  - 패리티 RAID 여야하는 경우 RAID 6이 더 좋으며 다음에는 핫 스페어도 사용하십시오.
  - SAS 디스크는 URE (복구 할 수없는 읽기 오류)를 유발할 수있는 더 높은 안정성, 복원력 및 복구 할 수없는 비트 오류 비율을 포함하여 다양한 이유로 더 좋습니다.
- 위에서 언급 한 것처럼 RAID는 백업이 아닙니다. 데이터가 중요한 경우 데이터가 백업되고 백업이 복원 테스트되었는지 확인하십시오.

— 희망이없는
소스

1

5 개의 디스크가 있고 (OP에 따라) 핫 스페어를 수행하려는 경우 RAID6보다 RAID10을 사용해야합니다.

— jimbobmcgee

1

글쎄, 우선, RAID 1 + 0에 4 개의 스핀들을 사용하여 2 개의 디스크 공간을 확보하고 하나의 디스크를 '예비'로 남겨 둡니다. 두 가지 실패 (적어도 두 가지 이상)를 허용 할 수 있습니다. RAID6는 3 개의 디스크 공간을 제공하며 2 개의 장애 (2 개)에도 견딜 수 있습니다. RAID1 + 0은 쓰기 패널티가 낮고 잠재적으로 더 나은 임의 읽기 성능 (두 스핀들 중 하나에서 읽기가 제공 될 수 있음)으로 성능이 향상되었습니다.

— Sobrique

포인트 2의 경우. 데이터 복구. 전문적으로 RAID5에서 데이터를 복구하면 2 천만 달러를 쉽게 낼 수 있습니다. 또한 OP는 재 구축을 하룻밤 동안 실행하여 디스크에 스트레스를 주므로 복구가 더 어렵거나 불가능할 수 있습니다. 미리 알려주는 것뿐입니다. 모든 디스크를 보내십시오.

— OmnipotentEntity

4

다른 사람들이 겪은 이유로 인해 동시에 실패 할 수도 있습니다. 다른 가능성은 디스크 중 하나가 얼마 전에 고장 났으며 적극적으로 검사하지 않았기 때문입니다.

모니터링이 성능 저하 모드에서 실행중인 RAID 볼륨을 즉시 선택해야합니다. 옵션을 얻지 못했을 수도 있지만 BIOS에서 이러한 것을 배우는 것은 결코 좋지 않습니다.

— 리차드
소스

3

무시한 모니터링에 대해 +1 "critical"-> "failded"단계가 아니라 "normal"-> "critical"단계를 이미 확인하는 것이 중요합니다. 이것은 다른 모든 유형의 중복 (백업 인터넷 라인, 지하실의 맥주, 예비 타이어 등)에도 적용됩니다.

— Hagen von Eitzen

2

"두 개의 하드 드라이브가 어떻게 그렇게 동시에 실패 할 수 있습니까?" 정확하게, 나는 이 기사 에서 인용하고 싶습니다 :

논쟁의 요점은 이것입니다. 디스크 드라이브가 점점 커지면서 (2 년 내에 약 2 배 증가) URE (복구 할 수없는 읽기 오류)는 같은 속도로 향상되지 않았습니다. URE는 복구 불가능한 읽기 오류의 발생 빈도를 측정하며 일반적으로 읽은 비트 당 오류로 측정됩니다. 예를 들어, 1E-14 (10 ^ -14)의 URE 비율은 통계적으로, 1E14 비트 읽기 (1E14 비트 = 1.25E13 바이트 또는 대략 12TB)마다 한 번씩 복구 할 수없는 읽기 오류가 발생 함을 의미합니다.

...

논쟁은 디스크 용량이 커지고 URE 속도가 같은 속도로 향상되지 않으면 시간이 지남에 따라 RAID5 재 구축 실패 가능성이 증가한다는 것입니다. 통계적으로 그는 2009 년 디스크 용량이 의미있는 어레이에 RAID5를 사용할 수 없게하기에 충분할만큼 커 졌음을 보여줍니다.

따라서 RAID5는 2009 년에 안전하지 않았습니다. RAID6도 곧 출시 될 것입니다. RAID1은 3 개의 디스크로 만들기 시작했습니다. 4 개의 디스크가있는 RAID10도 위태 롭습니다.

— 하프 가르
소스

3

다시 말하지만, RAID는 백업 대안이 아니며, 사용 가능한 데이터를 유지하기 위해 디스크를 교체 할 수있는 "버퍼 영역"을 추가하는 것입니다. 다른 옵션은 동시에 2 개의 어레이가 실패해야하는 복제를 사용하는 것입니다.

— War

개인적으로, 나는 RAID가 백업이 아니라는 진언을 좋아하지 않습니다. 사전은 "사람, 계획, 장치 등은 필요한 경우 대체 역할을하기 위해 준비되어있다"고 말합니다. 중복의 양이 충분하지 않으면 대체 역할을 수행하지 못합니다. 중복 RAID가 제공하는 것을 신경 쓰지 않으면 사용하지 않을 수 있습니다. 오프 디스크 및 오프 사이트 백업을 대체하지 않는 것은 완전히 동의합니다 (물론).

— Halfgaar

중복성이없는 RAID 스트라이프를 사용하는 사람들에 대해 어떻게 생각하십니까? 이 경우 RAID 어레이는 순수하게 유효한 성능 이점을 얻기 위해 순전히 사용됩니다. IMO는 내 마음에 IMO를 제공합니다. RAID는 드라이브를 그룹화하여 속도를 제공하거나 2. n 드라이브는 데이터를 계속 사용할 수 있도록 보장하지 않습니다.

— War

RAID를 구현하는 사람은 필요, 속도, 안정성 또는 2의 조합을 기반으로 사용하려는 RAID 유형을 선택하지만 RAID는 어떠한 형태의 백업 솔루션도 만들 수 없습니다.

— War

1

사람들이 RAID가 백업이 아니라고 말하면 가용성에 대해 말하는 것이 아닙니다. 나는 당신이 단어를 가지고 노는 것 같아요. :)

— gparent

2

스레드가 오래되었지만 읽기 중이라면 RAID 어레이에서 드라이브가 고장난시기를 이해하고 드라이브의 수명을 확인하십시오. RAID 배열에 여러 디스크가 있고 4-5 세 이상인 경우 다른 드라이브가 고장날 가능성이 높습니다. *** 계속 진행하기 전에 이미지 또는 백업을 만드십시오 **. 백업이 있다고 생각되면 테스트하여 백업을 읽고 복원 할 수 있는지 확인하십시오.

그 이유는 몇 시간 동안 최대 속도로 회전하면서 나머지 드라이브에 수년간의 정상적인 마모를 발생시키기 때문입니다. 6 년 된 드라이브 수가 많을수록 다른 드라이브가 스트레스를받지 않을 가능성이 커집니다. RAID5이고 어레이를 손상시키는 경우 백업이 가능하지만 RAID 컨트롤러 및 기타 하드웨어의 유형에 따라 2TB 디스크를 복원하는 데 8-36 시간이 걸립니다.

모든 드라이브가 오래된 경우 프로덕션 서버에서 전체 레이드 하이브를 정기적으로 교체합니다. 하나의 드라이브를 교체하는 데 시간이 걸리지 않고 다음, 일, 주, 월 또는 이틀 후에 다음 드라이브가 실패 할 때까지 기다리십시오. 드라이브처럼 소리가 들리기 때문에 다운 타임의 가치는 없습니다.

— 릭키 랜턴
소스

1

일반적으로 평판이 좋은 리셀러로부터 많은 양의 드라이브를 구매할 때 드라이브가 다른 배치에서 나오도록 요청할 수 있습니다. 이는 위에서 언급 한 이유로 중요합니다. 다음은 이것이 정확히 RAID 1 + 0이 존재하는 이유입니다. RAID 1 + 0에서 6 개의 드라이브를 사용한 경우 볼륨을 다시 구축 할 필요가없는 즉각적인 중복성을 갖춘 9TB의 데이터가있었습니다.

— 페이 턴 버드
소스

다른 배치에서 드라이브를 사용하는 것에 대한 부분이 도시 신화에 불과하다는 증거는 어디에 있습니까? 또한 RAID 1은 재 구축 중에 읽을 수없는 섹터로 실행되는 것을 마법으로 보호하지 않습니다. 이를 방지하려면 RAID 6 또는 3 개의 미러가있는 RAID 1을 사용하십시오 (약간 비쌉니다).

— kasperd

1

@kasperd 나는 여러분의 의견의 첫 부분을 구성하는 질문이 비슷한 것은 아니지만 , 비슷한 실패 시간을 줄이기 위해 새로운 RAID 1 쌍의 디스크 하나에서 '실행'해야합니까? .

— CVn

1

Linux에서 dmraid (예 : here )로 컨트롤러를 인식 하면 ddrescue 를 사용 하여 실패한 디스크를 새 디스크로 복구하고 dmraid를 사용하여 하드웨어 컨트롤러 대신 어레이를 빌드 할 수 있습니다.

— 브라이언 민턴
소스