하드 드라이브 교체 [닫힘]


19

특정 수년 동안 사용한 후에도 (중요한) 시스템 핵심 데이터베이스 서버의 하드 드라이브를 교체하는 것이 좋은 아이디어인지 궁금합니다.

예를 들어, 3 년 동안 사용한 후 하드 드라이브를 교체하려고했습니다. 서버에 많은 하드 드라이브가 있으므로 교체 할 하드 드라이브를 비틀 수 있습니다.

이것이 좋은 생각입니까, 아니면 사람들이 실패를 기다 립니까?

답변:


33

Google은 디스크 드라이브에 대한 연구를 수행했으며 디스크 사용 기간과 오류 사이의 상관 관계가 거의 없음을 발견했습니다. SMART 테스트도 실패를 나타내지 않습니다.

내 로컬 관찰 (> 500 서버)도 비슷합니다. 오래된 디스크는 여전히 쇠약 해지면서 새 디스크는 빨리 고장납니다.

나의 일반적인 규칙은 디스크 문제 (SMART 또는 시스템 오류)를 발견하면 즉시 교체하는 것입니다. 그렇지 않으면 서버가 작동 할 때 드라이브가 순환됩니다.

Google 연구 http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf


이것은 일반적으로 내가 생각한 것이었지만 다른 사람들이 무엇을했는지보고 싶었습니다. 감사합니다
Garfonzo

2
동의합니다. 3.5 인치 9GB SCSI 드라이브를 실행하는 10 년 된 서버보다 최신 2.5 인치 SAS 드라이브에서 훨씬 더 높은 오류 발생률을보고 있습니다!
James O'Gorman

@ JamesO'Gorman Manufacturing 프로세스 변경 ... 일부 엔지니어링 "무역"의 일환으로 새로운 드라이브에 어떤 일이 있었는지 궁금해합니다.
에이버리 페인

1
Microsoft Technet에는 하드 드라이브 / 기계적 구성 요소 오류에 대해 간략하게 다루는 Fault Tolerance 관련 기사 ( technet.microsoft.com/en-us/library/bb742464.aspx )도 있습니다. 구성 요소 고장이 따르는 경향이 있습니다.
voretaq7

@AveryPayne Re 새 드라이브, 2.5 "드라이브는 공차 가 훨씬 좁 습니다. 3.5"드라이브에서 "허용되는"기계적인 경사로 인해 2.5 "드라이브 에서 치명적인 오류가 발생할 수 있습니다. TechNet 기사 참조 욕조 곡선에 대한 연결 – 기계 구성 요소는 일반적으로 높은 영아 사망률을 겪고 나서 마침내 "노년"으로 사망 할 때까지 비교적 안정적입니다 .2.5 "드라이브는 여전히"유아 사망률 "영역에 있습니다. 최소 1 년의 운영.
voretaq7

13

아니.

활성 프로덕션 서버에서 하드 드라이브를 교체 할 때 가장 큰 문제 중 하나는 그렇게하면 재 구축이 트리거된다는 것입니다. 특히 RAID5를 사용하는 경우, 특히 큰 드라이브를 사용하는 경우 재구성을 강제 실행하면 복구 할 수없는 장애가 발생할 위험이 매우 높습니다. 재 구축 중에 어레이가 손실 될 위험은 3 년 된 드라이브를 제자리에 두는 것과 관련된 위험보다 훨씬 큽니다.

극단적 인 예를 들어, 2TB 디스크로 구성된 6 디스크 RAID5 어레이의 모든 디스크를 연속적으로 교체하는 경우, 재구성 중 하나에서 복구 할 수없는 읽기 오류의 이론적 위험은 58 % 정도입니다 (나이프 수학에 따르면). 직접 작성하고 메모를 비교하십시오). 다시 말해, "예방적인"디스크 교체는 사실상 방해 행위에 지나지 않습니다 .

오래된 서버에서 드라이브를 새로 고치는 것을 고려할 수있는 유일한 시간은 예를 들어 한 작업에서 서비스를 해제 한 후 새 역할을 수행하여 서비스를 다시 시작하기 전에 "새로 고침"하는 것입니다. 이 시점에서도 용량 및 성능 요구 사항은 드라이브 수명보다 훨씬 중요합니다.


1
재건 유발을위한 +1
gregmac

위험이 58 % 인 이유를 설명해 주시겠습니까? 디스크를 정기적으로 순찰하면 왜 더 많은 복구를 강조합니까?
Mircea Vutcovici

@MirceaVutcovici는 RAID-5 배열에서 모든 드라이브가 재 구축하는 동안 또는 때때로 임의 검색을하는 동안 또는 여기에서 지속적으로 활성화되기 때문입니다. 다시 말해, 모든 드라이브의 "로드"가 올라가고 그렇게하면 두 번째 실패한 드라이브를 트리거 할 위험도 높아집니다.
에이버리 페인

@Avery Payne 나는 당신이 재 구축하는 동안 디스크를 더 강조한다는 것을 알고 있습니다. 재 구축이 일관성 검사보다 디스크에 스트레스를주는 이유를 이해하려고합니다.
Mircea Vutcovici

@MirceaVutcovici 정확한 수치 (및 수학을 수행하는 방법)는 논란의 여지가 있지만 결론은 패리티 디스크를 사용하지 않고 읽기 오류를 수정하기 위해 패리티 디스크를 사용하지 않고 10 테라 바이트의 데이터를 6 번 읽어야한다는 것입니다. 여섯 번의 재건. 전혀 오류없이 60 테라 바이트의 데이터를 읽을 확률은 바람직하지 않습니다.
Skyhawk

3

나는 그것을 보지 못했다. 우리는 서버가 생산에서 5 년이 걸릴 때까지 보증을받습니다. 표준 RAID 5를 사용하면 디스크 장애시에도 살아남을 수 있으므로 드라이브를 몇 개만 보관하면 바로 재 구축을 시작할 수 있으며 중요한 서버에서 핫 스페어를 포함 시키거나 RAID 10으로 이동할

수 있습니다 . 여러 드라이브에 장애가 발생한 경우 최근 서버에서 백플레인 문제가있을 수 있습니다. 주변 구조물에서 발생하는 새로운 진동이나 먼지 일 수 있습니다.


이것은 전적으로 사실이 아닙니다. 많은 수의 디스크가 동일한 로트에서 나온 경우, 재구성의 스트레스를 추가 할 때 동시 실패의 위험이 훨씬 높아집니다. 다른 답변에서 언급했듯이, RAID5의 크기가 커지면 재구성 중에 URE의 확률이 높아져 어레이가 raid5 유효성 임계 값보다 낮아집니다.
Magellan
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.