실제 RAID 5 2 드라이브 오류 경험을 찾고 있습니까? [닫은]


15

누군가 큰 드라이브에서 RAID 5 2 드라이브 오류에 대한 개인적인 경험이 있는지 궁금합니다.

내가 이해하는 바와 같이, 이론은 1-2TB 드라이브가 큰 경우 하나의 드라이브가 RAID 세트에서 실패하면 모든 것을 다시 빌드해야하므로 다른 모든 드라이브를 매우 세게 때려야하며 다른 오류가 발생할 가능성이 있다는 것입니다. 특히 드라이브가 동일한 제조 배치에서 나온 경우. 다른 드라이브를 잃으면 모든 데이터가 손실됩니다.

이것은 일반적으로 내가 동의하는 "RAID는 백업이 아닙니다"라는 문구 후에 설명됩니다.

이것의 이론은 말이되고 이해 합니다만 실제로 발생합니까?


슬프게도 우리는 이것에 대한 생생한 경험으로 새로운 질문을 받았습니다. :( superuser.com/questions/516844/…
Hennes

답변:


15

그래, 나에게 일어난 일이야 4 주 (소비자 등급) WD 500 드라이브 세트는 약 일주일 동안 나빴습니다. 나는 첫 번째를 교체하는 것이 느리고 어레이를 오프라인으로 가져 가지 않았고 두 번째가 실패하면 모든 데이터를 잃어 버렸습니다. 나는 남은 두 가지 좋은 것을 다시 사용했고 그 중 한 달은 다음 달에 실패했습니다. 그들은 모두 제대로 냉각되고 돌 보았습니다. 나는 단지 "나쁜 배치"수사를 믿는다 고 말할 수있다.

별도의 사고로, 서로 다른 제조사와 모델의 3 개의 개별 드라이브가 서로 한 달 안에 고장 났지만, 실패한 이유는 환기가 제대로되지 않았기 때문입니다. 드라이브를 요리하지 마십시오!


3
추론으로 드라이브가 나빠질 때 여분의 여유를 두십시오. 또한 자동 손상을 조심하십시오. 작동하는 것처럼 보이는 드라이브에서 데이터를 잃기 쉽습니다.
Paul McMillan

이것이 RAID 어레이에서 모두 동일한 배치에있는 드라이브를 설치하지 않아야하는 또 다른 이유입니다. 드라이브에 관련된 고장 시간이 있습니다.
Andrew Mao

4

이것은 실제로 나에게 일어난 일이지만 실제로 드라이브가 실패하는 가장 일반적인 방법은 아닙니다. 5 개의 외장 SATA 드라이브 4 개를 RAID 5에 설치했습니다. 그들은 값싼 오래된 IBM 랙 마운트 서버에 연결되었습니다. 전체 셋업은 계단 아래로 갔고 하루는 쥐나 토끼 였지만 일부 전원 케이블을 통해 씹히는 부분과 2 개의 드라이브가 단락되었습니다. 모든 드라이브는 저렴한 외장 엔클로저에 있었으므로 놀라지 않아야합니다.


3

2 개의 드라이브를 연속해서 잃을 수 있는지 묻고 있습니까? 물론 어떤 일이든 일어날 수 있습니다. Raid 5는 데이터 액세스의 가용성과 성능이 크게 향상되지만 raid 5는 아무 것도 백업하지 않습니다. 단일 드라이브 하드웨어 손실로 인한 데이터 사용을 막는 데 도움이됩니다. 귀하의 데이터 사본이 아닙니다. 이전 사본, 이전 개정 또는 단순히 현재 작업의 사본을 복구 할 수 없습니다. 또한 데이터 손상으로부터 보호하지 않습니다. 단순히 드라이브를 잃는 것보다 잘못 될 수있는 일이 더 있습니다. 바이러스는 모든 데이터를 손상시킬 수 있습니다. 여동생은 파일을 던질 때 바탕 화면의 휴지통이 가득 차서 비워지는 것을 좋아합니다. 어리석은 친구는 컴퓨터에 탄산 음료를 떨어 뜨립니다.

또한 하드 드라이브 RAID 컨트롤러를 잃을 수 있습니다. 그리고 배열을 다른 임의의 컨트롤러로 옮길 수는 없습니다. 정상적으로 동일한 것을 사용해야하지만 여전히 문제가 발생할 수 있습니다. 일부 RAID 컨트롤러는 보드에 정보를 저장하고 다른 어레이는 연결된 어레이에 구성 정보를 보냅니다. 이 상황이 발생하면 도박입니다.

SF에서 동일한 질문 : /server/2888/why-is-raid-not-a-backup

더 많은 이유가 필요하십니까?

편집 : 당신의 생각은 정확하고 누구에게나 일어날 수 있습니다. 나는 개인적으로 하나 이상의 드라이브 고장을 보지 못했지만 일부 다이는 서로 가깝게 가깝습니다. 그 중 어느 것도 재건의 창에 없었지만 기술적으로 위험합니다. 그러나 문제가 발생했을 경우 백업이 있습니까? ㅋ. 어떤 사람들은 때때로 이것에 대한 어려운 길을 배웁니다. Raid 6은 이중 패리티를 통해 다음 단계로 올라가 최대 2 개의 드라이브를 잃을 수 있습니다. 레이드 설정을 사용하면 어레이의 크기 (드라이브 수) 및 복잡성으로 인해 오류 발생 가능성이 높아집니다. 더 많은 드라이브 = 더 많은 오류 가능성


죄송합니다. 모든 사람에게 발생했는지, 시나리오가 무엇인지 묻기 만하면됩니다.
Brian

3

RAID-5 시나리오에서 하나의 디스크를 잃어 버렸다가 다시 빌드하는 경우 시스템은 RAID 세트에서 남아있는 모든 드라이브의 모든 섹터를 성공적으로 읽어야합니다. NetApp은 일부 상황에서 (어떤 종류의 드라이브는 최대 28 개의 RAID 세트를 수행 할 수 있음) 두 번째 오류 발생 가능성은 최대 10 분의 1이 될 수 있다고 주장합니다. 따라서 그들은 RAID-6과 관련이 있다고 생각하는 "듀얼 패리티"를 수행합니다.

분명히 RAID 세트에 더 많은 드라이브가 있고 더 클수록 문제가 발생할 가능성이 높습니다. 작은 RAID 세트 (3-5 디스크)의 경우, 아마도 RAID-5 사용에 대한 가능성이 너무 많이 이동하지 않았을 것입니다.

그러나 항상 NetApp에서 Raid-DP를 할 수있는 곳에서 항상 작업합니다.


+1 나는 "모든 생존 드라이브의 모든 부문을 성공적으로 읽어야한다"는 사실을 전혀 생각하지 못했습니다.
AaronLS

2

어떤 개인 경험,하지만 난 그들에게 무슨 일 했어 사람들의 비명 소리에 귀를 기울 없다. 단일 드라이브, USB 키, 테이프, 대용량 RAID 설치 또는 Amazon S3 등 모든 스토리지 시스템은 사용자에게 가장 불편한 방식으로 실패합니다. RAID 5 세트를 재 구축하는 동안 두 번째 실패는 이것이 일어날 수있는 방법 중 하나 일뿐입니다.

또한 삼중 패리티 RAID에 대한 지원 은 며칠 전에 OpenSolaris통합 되었으므로 적어도 하나의 공급 업체는 패리티 RAID 재 구축 중에 두 번의 추가 장애를 허용하는 것이 엔지니어링 노력의 가치가 있다고 생각합니다.


1

실제로 실제로 발생합니다. 이것이 NetApp 스토리지 솔루션에 RAID 6이 구현 된 이유입니다. 이는 재 구축 중에 두 번째 드라이브를 잃어버린 경우를위한 것입니다.

다음 페이지 링크 텍스트 에 나열된 표준 공식을 사용하여 실패 가능성을 계산할 수 있습니다. 더 많은 수의 데이터 드라이브로 확장할수록 이러한 실패 가능성이 높아집니다. 디스크가 충분하면 대량의 데이터 볼륨이있는 RAID 5를 사용하는 경우이 번호를 걱정 영역으로 밀어 넣을 수 있습니다.

개인적인 경험을 통해 동일한 중요 시간 내에 동일한 어레이에서 두 개의 드라이브 장애가 발생할 수 있다고 말할 수 있습니다. Raid 6은 백업에서 복원하지 않아도됩니다.

도움이 되었기를 바랍니다


1

시나리오는 다음과 같습니다. RAID5 어레이에서 드라이브에 장애가 발생했지만 예비 디스크가 이미 제자리에 있거나 새 하드 드라이브 주문이 완료되었습니다. 당신은 (혹은 원격 미니언) 결함이있는 드라이브를 교체하기 위해 새로운 드라이브를 가지고갑니다. 잘못된 라벨링, 피곤함 또는 단순한 어리 석음으로 인해 불량 드라이브 대신 나머지 양호한 드라이브 중 하나가 배출됩니다. 두 번째 실패가 있습니다.


1

나는 데이터 복구 사업을 할 때 이것을 여러 번 보았다. 그리고 예, 그들은 종종 동시에 실패하지만, 필자가 불일치하는 드라이브에서 발생하는 것을 보았 기 때문에 이것이 반드시 빌드되었을 때와 관련이 있다고 생각하지 않습니다. 대부분 이러한 유형의 장애는 천둥 폭풍, 정전 또는 정전 직후에 발생합니다.

일반적으로 서지는 드라이브 또는 RAID 컨트롤러를 손상 시키며 며칠 내에 장애가 시작됩니다. 실제로 정전 후 동시에 두 개의 드라이브가 고장난 어레이를 복구하기 위해 노력하고 있습니다. (지금은 희망이 없어 보입니다)

작은 팁 : 서지 방지기는 실제로 장비를 보호하지 않습니다. 항상 RAID 5를 올바른 UPS에 연결하십시오. 어레이가 UPS에있을 때 이런 일이 발생하는 것을 본 적이 없습니다.


1

실수로 단일 패리티 세트에서 두 번째 양호한 드라이브를 가져 오면 RAID 구현이 양호한 어레이를 파괴해서는 안됩니다. ZFS RAID-Z는 다시 온라인 상태가 될 때까지 어레이의 모든 I / O를 정지시킵니다.


0

다른 시나리오 : 테이프 드라이브에서 백업 테이프를 가져 오려면 원격 미니언이 주문됩니다. 그녀는 랙으로 가서 테이프 드라이브에서 테이프를 꺼내지 않습니다. 그러나 동시에 2 개의 HDD가 드라이브 베이에서 빠져 나옵니다. 드라이브 2 개.

당신은 이것이 많이 가져온 것 같아요? 글쎄, 나는 지금 그 일을 해 왔으며 이제 서버 재 구축을보고있는 고객입니다.

좋은 thinng 그녀는 실제로 테이프 드라이브에 있던 테이프를 태우지 않았거나 그렇지 않은 ;-)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.