하나의 하드 디스크 만 실패하면 RAID 4 디스크 설정이 충돌 할 수 있습니까? [닫은]


9

저는 웹 개발자입니다. 하드웨어에 대한 경험이 많지 않습니다. 이러한 이유로 관리 서버를 사용합니다.

오늘 아침, 설정에있는 드라이브 중 하나가 고장났습니다. 그러나 전체 사이트가 다운되었습니다. 웹 호스트에게 무슨 일이 있었는지 물어 봤는데, RAID 컨트롤러가 제대로 작동하지 않는 방식으로 하드 디스크가 고장 났다고 대답했습니다. 어레이가 RAID 4로 설정되었습니다.

당신은 전에 그것을 본 적이 있습니까? 가능합니까?

이 사람들에 대한 도움을 주셔서 감사합니다. 내 웹 호스트가 저에게 정직한 지 알아야합니다.


어레이에서 둘 이상의 디스크가 죽으면 RAID가 실패합니다 (RAID 설정에 따라 다름).
Rhys Evans

한마디로, 귀하의 공급자는 a ******이며 저렴한 편입니다. 고객이 인프라에 내결함성이 없다는 경고가 표시되는 한, 드라이브 장애가 발생해도 완벽하게 수용 할 수 있습니다.
Luke404

raid 유형으로 질문을 업데이트하십시오 (예 : raid 0,1,4,5,6 등).
Trevor Boyd Smith

답변:


22

공급자가 RAID에 사용되지 않는 하드 드라이브를 사용하고 있지 않을 가능성이 높습니다. 일반 소비자 SATA 드라이브는이 범주에 속합니다.

드라이브에 수정 불가능한 읽기 오류 (URE)가 발생하기 시작했을 가능성이 있습니다. 소비자 드라이브에서이 문제가 발생하면 드라이브는 그 자리에 앉아 포기할 때까지 읽기 작업 (일반적으로 30-60 초 동안)을 재 시도합니다. RAID는 드라이브가 오류 (30-60) 초를보고 할 때까지 기다립니다. 따라서 몇 개의 섹터에 대한 간단한 요청으로 인해 서버가 쉽게 정지되는 반면 실패한 드라이브는 읽기-재시도 조작을 통해 분쇄됩니다.

RAID 어레 이용 드라이브에는 시간 제한 오류 복구 (SATA 드라이브 용)가 있습니다. TLER는 장애를 컨트롤러에 신속하게 다시보고하므로 컨트롤러는 이러한 장애에 지능적으로 대응할 수 있습니다 (주로 지능적으로, 희망적으로). SCSI (SAS도)는 약간 다르게 작동합니다. SCSI 명령 세트를 사용하면 컨트롤러가 드라이브에 대한 다양한 복구 작업 제한을 지정할 수 있습니다 (MODE SELECT : RW ERR RECOVERY). RAID 컨트롤러는 드라이브가 빨리 고장 나도록 설정해야합니다. 그러면 컨트롤러는 드라이브가 TUR 명령으로 제대로 작동한다고 생각하는지 검사하고 검사 조건이있는 경우 드라이브를 어레이에서 고장 나게합니다.


좋은 설명입니다.
sbrattla

11

그렇습니다. 어레이가 장애에서 살아 남았어야한다고 생각하는 시나리오에서도 가능합니다.

배열이 실패하는 이유는 다음과 같습니다.

  • RAID 모드로 유지 될 수있는 것보다 많은 드라이브가 고장났습니다. 예를 들면 다음과 같습니다.
    • RAID 0 (스트라이핑)은 어떤 드라이브 장애에서도 살아남을 수 없습니다.
    • RAID 1은 1 개의 드라이브를 제외한 모든 드라이브의 장애에도 견딜 수 있습니다.
    • RAID 4/5는 1 개의 드라이브 장애에도 견딜 수 있습니다.
    • RAID 6은 2 개의 드라이브 장애에도 견딜 수 있습니다.
    • RAID 10은 고장난 드라이브에 따라 최대 50 %의 드라이브 고장에도 견딜 수 있습니다.
  • RAID 소프트웨어 또는 컨트롤러 펌웨어의 버그.
  • 사용자 오류.
    • 누군가 너무 많은 드라이브를 가져 왔습니다.
    • 누군가 드라이브를 잡아 당겨 교체하지 않았으며 다른 드라이브가 고장났습니다.
    • 어레이가 모니터링되지 않아 살아남을 수있는 것보다 더 많은 드라이브가 고장날 수 있습니다.
  • 소비자 급 드라이브를 갖춘 저렴한 컨트롤러는 일반적으로 생존 가능한 시나리오에서도 실패하는 것으로 알려져 있습니다.
    • 소비자 수준의 드라이브는 불량 섹터를 읽을 때까지 거의 무한정 읽기를 시도합니다. 저렴한 컨트롤러는 그러한 드라이브가 결과를 반환 할 때까지 거의 무한정 기다립니다. 대기 시간이 너무 길어 운영 체제가 포기할 수 있습니다. 그런 다음 재부팅시 드라이브가 컨트롤러에 충분히 빠르게 응답하지 않고 어레이가 고장난 것으로 간주됩니다.
    • 반면, 엔터프라이즈 레벨 드라이브는 빠르게 포기하여 컨트롤러가 다른 드라이브에서 데이터를 가져올 수 있습니다. 또한 올바른 컨트롤러는 응답에 너무 오래 걸리는 드라이브를 실패한 것으로 표시하고 계속 진행합니다.

1
RAID 1은 어레이의 드라이브 중 하나제외한 모든 장치 가 사망하더라도 살아남 아야합니다 . 물론 대부분의 사람들은 아마도 2 개의 드라이브 RAID 1 설정을 실행할 것입니다. 이는 단일 드라이브의 죽음 만 견딜 수 있지만 이는 RAID 1에 고유 한 것이 아닙니다.
CVn

흥미로운 점은 RAID 10에서 하나의 디스크가 고장 나면 하나의 디스크 만 고장난 경우에도 살아남지 못하기 때문에 다른 디스크를 분리해야한다는 것입니다. :-) 게시물을 편집해야한다고 생각합니다.
FLY

@ MichaelKjörling 좋은 지적입니다. 게시물을 수정했습니다.
longneck

@ FLY 당신 말이 맞아 요, 그 점에 대해 글로시했습니다. 편집했습니다.
longneck

RAID4는 RAID3이어야합니다. RAID3는 패리티가있는 바이트 스트라이핑입니다. RAID4는 AFAIK가 구현되지 않은 수많은 드라이브를 필요로하는 ECC 구현이었습니다.
Dan은 Filightling에 의해

8

RAID 0 구현 인 경우 단일 드라이브에 장애가 발생하면 어레이 및 모든 데이터가 손실됩니다.


RAID 4 구현
Steve Rodrigue

11
하하하-당신은 거의 날 거기에 있었어요, 정말로 무엇입니까?
Chopper3

3
@ Chopper3 NetApp은 RAID4를 사용합니다. 그래서 그것은 완전히 들어 본 적이 없지만, 나에게도 문제가되었습니다. 어쩌면 그것은 호스트가 NetApp Filer 또는 다른 것을 가지고 있다고 말하는 방법 일 것입니다.
HopelessN00b

1
@SteveRodrigue은 당신이 장해야 그것의 RAID 4?
MDMarra

1
실제로 RAID4이고 하나의 드라이브 만 고장난 경우, 최소한 최소한 새 드라이브를 설치하고 어레이를 재 구축 할 수 있어야합니다. 아마도 웹 호스트는 나머지 드라이브 중 하나 가이 작업을 수행하는 동안 실패했음을 의미했을까요?
user3490

2

디스크가 잘못되거나 임박한 오류보고가 시작될 때 펌웨어 버그가 전체 RAID를 제거하는 것을 보았습니다. 죄송합니다. 구체적인 사항은 없지만 네, 일어날 수 있습니다. 물론 RAID 사양의 일부가 아닌 것은 분명히 버그입니다.


1

네 가능합니다. 아니에요 되어 발생하는 것이 아니라 확실히 할 수 있습니다. URE (복구 불가능한 읽기 오류) 및 컨트롤러 오류 및 펌웨어 버그 등을 입력하십시오.

추가 정보가 없으면 (호스트가 제공하지 않을 것임) 확실하게 말할 수는 없지만 많은 RAID 배열을 사용하는 사람은 전체 배열이 손실되거나 충돌 할 때 경험이 있습니다. 해서는 안됩니다.

(그리고, 그런데, RAID4는 매우 일반적으로 사용되는 RAID 수준이 아니라 해야 모든 드라이브의 손실을 견딜 .합니까 그러나, 항상 것을 의미하지.)


1

나는 기계공이 실패하지 않고 전자 장치가 통신 인터페이스를 구성하는 많은 HDD 오류를 겪었습니다. 크기가 작기 때문에 많은 전자 부품이 작은 전기적 불규칙성에도 매우 민감합니다 (이것은 근처의 대형 A / C 모터를 켜고 끄는 등의 상황이 발생할 수 있으며 전원 공급 장치가 약간 저렴한 경우에 발생할 수 있습니다).

드라이브의 내부 전력 변환기 또는 커패시터 (에너지 저장 버퍼)가 HDD의 외부 커넥터에서 생성 된 전기 신호를 태우면 사양에서 벗어날 수 있습니다. 드라이브는 구리선을 통해 컨트롤러에 연결되어 있으며, 종종 서버에서 많은 드라이브가 케이블 연결을 공유하여 설치를 용이하게하고 클러 터를 줄이므로 여러 개의 인접한 구성 요소를 쉽게 중단 시키거나 영구적으로 파괴 할 수 있습니다.

이것은 가격 책정과 거의 관련이 없습니다. 고가의 컨트롤러와 드라이브는 비정상적인 조건에 더 견딜 수 있거나 차폐가 더 나은 부품을 사용할 수 있으며 예산 구성 요소의 경우 표준이 아닌 부품을 얻을 가능성이 높습니다. 그러나 나는 정기적으로 $ 50 드라이브와 $ 500 드라이브에서 동일한 커패시터를 발견했습니다. 또한 고장난 HDD가 12 볼트를 전원 공급 장치에서 SATA 커넥터로 직접 라우팅하면 가격표의 수에 관계없이 RAID 컨트롤러가 작동하지 않습니다.

그것은 일반적으로 일어나는 일은 아니지만 내 경험으로는 분명히 들리지 않습니다.


"대부분의 서버에서는 많은 드라이브가 케이블 연결을 공유합니다"최신 SAS 또는 SATA 환경에는 없습니다. 당신의 시나리오가 여기에서 일어난 것 같지는 않습니다. 드라이브의 전자 장치가 죽고 다른 구성 요소를 사용한다고 들었다고 생각하지 않습니다. 12v가 확실히 SATA 또는 SAS 컨트롤러를 튀기는 반면, 12V에서 3.3 이하로 전압을 낮추는 것이 5V 또는 3.3V 소스에 비해 매우 복잡하기 때문에 로직 구성 요소는 12v에 거의 연결되지 않습니다. 이런 일이 일어나는 곳이 어디인지 궁금합니다. 공유 할 의향이 있다면?
Chris S

1

예, 단일 드라이브 장애 후 전체 RAID가 실패 할 수 있습니다. 첫 번째 고장난 드라이브는 컨트롤러에 의해 오프라인 상태가되고 습격은 여전히 ​​잘 작동합니다. 그러나 고장난 드라이브를 교체하면 컨트롤러가 RAID를 재 구축하기 시작합니다. 남아있는 다른 드라이브 중 하나에 잠재적 인 발견되지 않은 읽기 문제가있는 경우, 실패한 드라이브를 다시 빌드하면 더 많은 드라이브가 오프라인 상태가 될 수 있습니다 (레이드를 다시 빌드하는 동안 읽기 문제가 발견 될 때). 불합격.


이것이 읽기 또는 쓰기 문제를 발견하기 위해 정기적으로 RAID 어레이를 스크러빙해야하는 이유입니다.
Chris S
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.