대형 드라이브의 높은 고장률?


24

최근에 5 개의 1TB 드라이브가있는 서버를 배포했습니다 (브랜드는 언급하지 않지만 가장 큰 두 가지 중 하나였습니다). 나는 친구가 나에게 MTBF가 매우 낮다는 조언을 들었을 때 대용량 드라이브를 얻는 것에 대해 처음 경고 받았다. 기술이 처리 할 수 ​​있습니다.

그 이후로 5 개의 디스크 중 3 개가 고장났습니다. 고맙게도 다음 디스크가 고장 나기 전에 어레이를 교체하고 재 구축 할 수 있었지만 매우 걱정이되었습니다.

당신의 생각은 무엇입니까? 방금 나쁜 배치로 얻었습니까? 또는 새로운 디스크 / 고용량 디스크는 시도 및 테스트 된 디스크보다 고장날 가능성이 있습니까?


2
왜 브랜드를 언급하지 않습니까? 귀하의 배치가 조기 사망 경향이있는 것으로 알려진 7200.11 cudas 인 것 같습니다.
Dani

실제로, 그들은 서부 디지털이었습니다 ...
Mark Henderson

단지 기록을 위해, 나는 그들 모두를 다시 가져 와서 새로운 것을 모두 얻었고, 그들은 아무런 문제없이 지금 2 개월 동안 달렸습니다.
Mark Henderson

나는 비슷한 경험을했다. 1.5TB 드라이브 16 개 처음 4 개월 동안 4 번의 실패가있었습니다. 다음 3 년 동안 하나의 소프트가 실패했습니다.
David Schwartz

답변:


19

배치가 잘못되었을 수 있습니다. 같은 이유로 동일한 배치의 디스크로 구축 된 어레이를 배포하는 데 신경을 씁니다. 수명이 비슷하여 고장이 발생했을 때 교체를 매우 흥미롭게 할 수 있습니다.

드라이브에 약간의 디자인 결함이 있다는 것은 불가능하지 않습니다. 그러나 일반적으로 인터넷은 드라이브에 대해 실제로 문제가있는 경우 드라이브에 대한 불만으로 가득 차 있습니다.


6
+1이를 줄이기 위해 구매 공간을 넓히거나 다른 판매자로부터 제품을 공급하거나 브랜드를 혼합 해보십시오.
Rob Allen

또는 동일한 장소에서 동시에 공급되는 드라이브를 "번인 (burning in)"하여 완화 할 수 있습니다. 몇 시간 / 일 동안 쓰기 집약적 인 프로그램을 실행하십시오. 다른 노화를 시뮬레이션하기 위해 지속 시간을 비틀어 라. 나는 psedo-random 데이터를 쓴 다음 다시 읽고 검증하기 위해 간단한 테스트 데스크를 수행하는 DriveTest라는 간단한 프로그램을 만들었습니다. 이 팁은 SSD에는 권장되지 않습니다.
rkagerer 2016 년

13

대규모 조직의 리소스가 없다면 대답하기 어려운 질문입니다. 하드 디스크 오류에 대한 Google의 조사를 참조하십시오 .

디스크를 많이 구매할 때는 바이트 당 비용이 가장 낮은 대략적인 디스크 크기 (일반적으로 최신보다 1 세대 더 큼)를 결정합니다. 이것은 그들이 그 세대의 신뢰성을 향상시킬 것이라는 것을 의미합니다.


1
1.5 ~ 2TB가 현재 최첨단이므로 1TB가 기준에 맞지 않습니까? 그들은 꽤 싸다.
Mark Ransom

아주 좋은 지적입니다.
녹스

10

플래터가 많을수록 헤드가 많을수록 고장 가능성이 높아집니다.

두 개의 일반적인 WD 하드 드라이브 사용

640GB = 플래터 2 개
1TB = 플래터 3 개

    WD Black 640GB vs 1TB comparison

Drive Ready Time 11 sec  13
R/W Power watts  8.3     8.4
Idle Power watts 7.7     7.8
Standby watts    1       1
Max shock        300g    250g
Performance seek 29      33
Quiet seek       26      29

추가 플래터 = 더 많은 소음, 더 많은 전력 사용, 더 많은 열, 더 느린 드라이브 준비 시간, 충격으로 인한 손상 및 더 많은 진동.

그들이 하나의 플래터로 동일한 드라이브 디자인을 만들면 더 나은 사양을 갖게 될 것입니다. 이 경우 이들은 소비자 등급 드라이브이지만 캐시가 두 배이고 5 년 보증이 제공되는 고급 소비자 등급 드라이브입니다. 모든 브랜드 또는 스타일의 전통적인 하드 드라이브 (회전하는 플래터)에 대한 문서를 면밀히 검사하면 비슷한 수학이 나타납니다. 플래터가 많을수록 드라이브의 신뢰성이 떨어지는 것은 순전히 물리학의 문제입니다.

그가 말했을 때 Jeff Hengesbach도 옳았습니다

'큰'드라이브의 주요 관심사는 장애 발생시 재 구축 시간입니다. 드라이브가 클수록 재 구축이 길어질수록 추가 드라이브 오류 및 어레이 손실 가능성이 커집니다. "큰"드라이브를 사용하면 가용성의 비즈니스 가치가 RAID 수준 선택 및 드라이브 수를 증가시키는 수용 가능한 위험 수준 (배열 손실)을 결정해야합니다 (드라이브 수가 많을수록 드라이브 오류 발생 가능성이 더 높음).

소량의 Graeme Perrow를 첨가하십시오

5 천만 개의 섹터를 가진 드라이브는 5 백만 개의 섹터를 가진 드라이브보다 불량 섹터를 가질 확률이 10 배입니다. 나는 큰 드라이브와 작은 드라이브의 고장률이 여기에서 같다고 가정합니다. 아마도 좋은 가정이 아닙니다.

더 많은 플래터 = 불량
더 많은 저장 공간은 혼합 백입니다. 그것에 대한 장단점이 많습니다.
더 많은 섹터는 실제로 오류 가능성이 높습니다. 규모가 반드시 선형 일 필요는 없지만 확실히 요인입니다.

신뢰성 이상의 공간이 필요하지 않으면 단일 플래터 또는 이중 플래터 드라이브를 사용하는 것이 좋습니다. 일부 제조업체는 실제로 동일한 부품 번호로 두 개 이상의 드라이브를 판매 할 수있는 플래터 수를 게시하지 않기 때문에 드라이브를 주문할 때 얻을 수있는 정보를 아는 것이 연구와 경우에 따라 운이 좋을 수도 있습니다.

WD3200AAKS를 예로 들어 단일 플래터 320GB 버전과 이중 플래터 320GB 버전 (160GB x 2)이 있습니다. 그 외에도 여러 개의 lable 및 드라이브 하우징이 사용되므로 드라이브를 쉽게 볼 수 없으며 내부에 어떤 플래터가 있는지 알 수 없습니다. 알 수있는 유일한 방법은 온라인으로 검색하여 WD3200AAKS-00B3A0 및 WD3200AAKS-75VYA0이 단일 플래터인지 알려 주지만 소매점에서는 얻을 수있는 것을 알려주지 않습니다.


1
와우. 그것은 심도있는 것들입니다! 감사! 나는 지금까지 움직이는 부품 (플래터)의 수를 고려하지 않았습니다.
Mark Henderson

3

정상적인 고장률보다 높은 것은 새로운 기술을 나타내는 것이라고 생각합니다. 나는 항상 자동차의 첫 번째 모델을 사지 말라고 항상 들었습니다. 그들이 버그를 해결할 때까지 기다리십시오. 하드 드라이브를 포함한 다른 많은 것들에 대해서도 마찬가지입니다.


1
나는 전체 자동차 유추를 증명할 수 있습니다 (자동차 유추는 결코 타락하지 않습니다.). 나는 서두르고 있음을 인정하고 제대로 연구하지 않았으며 지금 가격을 지불하고 있습니다!
Mark Henderson

3

'큰'디스크의 MTBF가 더 높다고 말하는 것이 공정하지 않다. 나는 소수의 750GB 드라이브를 가진 큰 이름 시스템을 가지고 있으며 지난 2 년 동안 아무도 실패하지 않았다 (750 년은 "큰"2 년 전). 그러나 250GB가 크고 배열이 몇 배 이상 떨어졌을 때 구축 된 큰 이름 시스템도 알고 있습니다. MTBF 토론은 거룩한 전쟁입니다.

'큰'드라이브의 주요 관심사는 장애 발생시 재 구축 시간입니다. 드라이브가 클수록 재 구축이 길어질수록 추가 드라이브 오류 및 어레이 손실 가능성이 커집니다. "큰"드라이브를 사용하면 가용성의 비즈니스 가치가 RAID 수준 선택 및 드라이브 수를 증가시키는 수용 가능한 위험 수준 (배열 손실)을 결정해야합니다 (드라이브 수가 많을수록 드라이브 오류 발생 가능성이 더 높음).

지난 몇 년 동안 비즈니스 SATA / RAID가 등장했습니다. 나는 그들이 큰 지원 문제이거나 고객의 공급원이 실망 할 줄 알았을 때 큰 이름이 그것을 제공 할 것이라고 생각하지 않습니다. 원래 배치의 일부를 교체 했으므로 앞으로 귀하의 신뢰성을 알고 싶습니다.


1

모두 같은 컴퓨터 또는 디스크 컨트롤러에 있습니까? 어레이를 재 구축해야한다고 말했습니다. 이 경우 컨트롤러, 전원 공급 장치 또는 메모리에 문제가있을 수 있습니다. 그렇지 않은 경우 결함이있는 드라이브 배치도 추측합니다. 또한 해당 특정 컨트롤러와 함께 사용중인 특정 드라이브에 호환성 문제가있을 수 있습니다.

또한 사람들이 더 큰 디스크가 MTBF가 더 높다고 말하는 방법이 궁금합니다. 2x250GB 및 1x500GB 디스크가 있다고 가정하겠습니다. 어쩌면 이것은 순진하지만 실패 할 수있는 더 많은 데이터를 가지고 두 배의 드라이브를 보유하지 않습니까? MTBF에 오판이나 오판이 포함되어 있는지 또는 디스크가 기계적으로 고장났다는 것을 알지 못하는 것 같습니다. 하드 디스크에 대한 엄격한 산업 표준과 MTBF 정의가 있는지 아는 사람이 있습니까?


1

몇 가지 확인해야 할 사항이 있습니다. 1) 드라이브의 일련 번호가 매우 가깝습니까? 그렇다면 배치에 결함이있을 수 있습니다. 2) 서버의 환경은 어떻습니까? 최근에 실패한 다른 하드웨어에 문제가 있습니까? 3) 드라이브가 Seagate Barracuda 드라이브입니까? 해당 드라이브에 문제가 있습니다. 이 컴퓨터 세계 기사 를 참조하십시오 . 4)이 드라이브는 시스템의 일부로 제공 되었습니까? 아니면 직접 사 셨나요? OEM 드라이브를 구입 한 경우 드라이브를 구입하기 전에 드라이브를주의해서 취급 할 수있는 방법이 없습니다.

나는 개인적으로 하드 드라이브와 함께 놀라운 운이 있었다. 나는 두 개의 드라이브 만 고장났다. 이러한 오류 중 하나만 실제로 사용중인 드라이브에있었습니다. 그러나 내 주변에서 많은 사람들이 하드 드라이브의 데이터를 잃는 것을 보았습니다.


흠, 예, 그들은 모두 매우 가까웠지만 Seagate가 아닌 WD였습니다. 그렇습니다. OEM 드라이브였습니다 ... 제가 여기서 고려하지 않은 몇 가지 ...
Mark Henderson

1

큰 드라이브의 높은 고장률은 드라이브 크기의 함수일 수 있습니다. 5 천만 개의 섹터를 가진 드라이브는 5 백만 개의 섹터를 가진 드라이브보다 불량 섹터를 가질 확률이 10 배입니다. 나는 큰 드라이브와 작은 드라이브 사이의 고장률이 여기에서 같다고 가정합니다. 아마도 다른 사람이 말했듯이 테라 바이트 드라이브가 여전히 비교적 새롭다는 사실은 아마도 고장률이 더 높을 것입니다 로 시작하십시오.

귀하의 경우, 그것은 나쁜 드라이브 배치처럼 들립니다.


1

같은 장소에서 동시에 모든 드라이브를 구입 한 경우 모두 단일 iffy 배치에서 올 수 있습니다.

RAID 어레이를 구성 할 때는 일반적으로 드라이브를 약간 혼합하는 것이 좋습니다. 예를 들어 제조업체가 적거나 다른 공급 업체의 드라이브를 하나 이상 배치하는 것이 좋습니다 (모든 드라이브가 하나의 불량 배치로 인한 위험을 줄이기 위해).

또 다른 권장 사항은 가능하면 더 작은 드라이브를 사용하는 것입니다 (예 : 드라이브와 컨트롤러 포트에 물리적 공간이있어 드라이브를 끊는 방법). 따라서 RAID 1 볼륨 또는 2 개의 1Tb 드라이브 대신 4 개의 500Gb 장치의 RAID 10이 있습니다. 이렇게하면 드라이브가 나빠질 때 전체 어레이를 재 구축하는 대신 더 큰 어레이의 일부인 더 작은 어레이 만 재 구축하는 것입니다 (배열이 완료되지 않은 시간을 줄임). ( "2 개의 드라이브가 동시에 실패"시나리오 중 6 개 중 4 개에서 4 개의 드라이브 RAID10 어레이가 작동합니다). RAID 컨트롤러 / 소프트웨어가 지원하는 경우 더 작은 R5 어레이를 R50 어레이에 결합하여 동일한 작업을 수행 할 수 있습니다.

어쩌면 나는 편집증이 될 수도 있지만 드라이브가 중복 배열의 일부인 경우에도 1Tb의 데이터를 하나의 단일 드라이브로 신뢰하는 것에주의해야 할 것입니다.

분명히 기술에는 실용적이지 않을 수있는 물리적 제약이 있으며, 전력 소모도 제한되므로 YMMV. 어레이 또는 어레이 실용적이지 않은 경우 "예를 들어"로서 : R1 어레이의 더 큰 드라이브 대신 서버 중 하나에 R10과 같이 4 개의 드라이브가 있지만 물리적으로 공간이 없습니다. 외부 스토리지 구매 / 구축에 예산이 부족했으며 데이터 보호 요구 사항으로 인해 데이터를 다른 모든 데이터와 물리적으로 분리해야했기 때문에 기존 어레이의 공간을 사용할 수 없었습니다.


1

누군가 큰 드라이브의이 문제에 대해 매우 상세하게 연구했습니다. 드라이브 크기가 커지더라도 비트 오류율이 일정하게 유지되고 더 큰 드라이브를 재 구축하는 데 시간이 오래 걸립니다. 이 두 가지가 결합하여 재 구축 동안 2 차 실패를 현실 세계에 매우 많이 적용했습니다. RAID 어레이에서 500GB 이하의 드라이브를 사용합니다.


1

프로덕션 용도로 항상 더 작은 용량의 하드 드라이브를 사용하십시오. 그 뒤에 물리를 확인하지는 않았지만 작은 디스크는 덜 자주 부서지는 경향이 있습니다. 그것이 모두가 항상 말한 것입니다.


0

동일한 배치의 디스크와 모두 동일한 공급 업체의 디스크로 어레이를 생성 했습니까? 나는 그것이 나쁜 일이라고 들었습니다 ...


0

RAID-6을 고려하십시오. RAID-5 재구성 중에 하드 읽기 오류가 발생할 가능성은 매우 높습니다. 또는 ZFS가있는 RAID-Z.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.