하드 드라이브 교체 [닫힘]

특정 수년 동안 사용한 후에도 (중요한) 시스템 핵심 데이터베이스 서버의 하드 드라이브를 교체하는 것이 좋은 아이디어인지 궁금합니다.

예를 들어, 3 년 동안 사용한 후 하드 드라이브를 교체하려고했습니다. 서버에 많은 하드 드라이브가 있으므로 교체 할 하드 드라이브를 비틀 수 있습니다.

이것이 좋은 생각입니까, 아니면 사람들이 실패를 기다 립니까?

hardware hard-drive lifecycle

— 가르 폰조
소스

답변:

Google은 디스크 드라이브에 대한 연구를 수행했으며 디스크 사용 기간과 오류 사이의 상관 관계가 거의 없음을 발견했습니다. SMART 테스트도 실패를 나타내지 않습니다.

내 로컬 관찰 (> 500 서버)도 비슷합니다. 오래된 디스크는 여전히 쇠약 해지면서 새 디스크는 빨리 고장납니다.

나의 일반적인 규칙은 디스크 문제 (SMART 또는 시스템 오류)를 발견하면 즉시 교체하는 것입니다. 그렇지 않으면 서버가 작동 할 때 드라이브가 순환됩니다.

Google 연구 http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf

— jeffatrackaid
소스

이것은 일반적으로 내가 생각한 것이었지만 다른 사람들이 무엇을했는지보고 싶었습니다. 감사합니다

— Garfonzo

동의합니다. 3.5 인치 9GB SCSI 드라이브를 실행하는 10 년 된 서버보다 최신 2.5 인치 SAS 드라이브에서 훨씬 더 높은 오류 발생률을보고 있습니다!

— James O'Gorman

@ JamesO'Gorman Manufacturing 프로세스 변경 ... 일부 엔지니어링 "무역"의 일환으로 새로운 드라이브에 어떤 일이 있었는지 궁금해합니다.

— 에이버리 페인

Microsoft Technet에는 하드 드라이브 / 기계적 구성 요소 오류에 대해 간략하게 다루는 Fault Tolerance 관련 기사 ( technet.microsoft.com/en-us/library/bb742464.aspx )도 있습니다. 구성 요소 고장이 따르는 경향이 있습니다.

— voretaq7

@AveryPayne Re 새 드라이브, 2.5 "드라이브는 공차 가 훨씬 좁 습니다. 3.5"드라이브에서 "허용되는"기계적인 경사로 인해 2.5 "드라이브 에서 치명적인 오류가 발생할 수 있습니다. TechNet 기사 참조 욕조 곡선에 대한 연결 – 기계 구성 요소는 일반적으로 높은 영아 사망률을 겪고 나서 마침내 "노년"으로 사망 할 때까지 비교적 안정적입니다 .2.5 "드라이브는 여전히"유아 사망률 "영역에 있습니다. 최소 1 년의 운영.

— voretaq7

아니.

활성 프로덕션 서버에서 하드 드라이브를 교체 할 때 가장 큰 문제 중 하나는 그렇게하면 재 구축이 트리거된다는 것입니다. 특히 RAID5를 사용하는 경우, 특히 큰 드라이브를 사용하는 경우 재구성을 강제 실행하면 복구 할 수없는 장애가 발생할 위험이 매우 높습니다. 재 구축 중에 어레이가 손실 될 위험은 3 년 된 드라이브를 제자리에 두는 것과 관련된 위험보다 훨씬 큽니다.

극단적 인 예를 들어, 2TB 디스크로 구성된 6 디스크 RAID5 어레이의 모든 디스크를 연속적으로 교체하는 경우, 재구성 중 하나에서 복구 할 수없는 읽기 오류의 이론적 위험은 58 % 정도입니다 (나이프 수학에 따르면). 직접 작성하고 메모를 비교하십시오). 다시 말해, "예방적인"디스크 교체는 사실상 방해 행위에 지나지 않습니다 .

오래된 서버에서 드라이브를 새로 고치는 것을 고려할 수있는 유일한 시간은 예를 들어 한 작업에서 서비스를 해제 한 후 새 역할을 수행하여 서비스를 다시 시작하기 전에 "새로 고침"하는 것입니다. 이 시점에서도 용량 및 성능 요구 사항은 드라이브 수명보다 훨씬 중요합니다.

— 스카이 호크
소스

재건 유발을위한 +1

— gregmac

위험이 58 % 인 이유를 설명해 주시겠습니까? 디스크를 정기적으로 순찰하면 왜 더 많은 복구를 강조합니까?

— Mircea Vutcovici

@MirceaVutcovici는 RAID-5 배열에서 모든 드라이브가 재 구축하는 동안 또는 때때로 임의 검색을하는 동안 또는 여기에서 지속적으로 활성화되기 때문입니다. 다시 말해, 모든 드라이브의 "로드"가 올라가고 그렇게하면 두 번째 실패한 드라이브를 트리거 할 위험도 높아집니다.

— 에이버리 페인

@Avery Payne 나는 당신이 재 구축하는 동안 디스크를 더 강조한다는 것을 알고 있습니다. 재 구축이 일관성 검사보다 디스크에 스트레스를주는 이유를 이해하려고합니다.

— Mircea Vutcovici

@MirceaVutcovici 정확한 수치 (및 수학을 수행하는 방법)는 논란의 여지가 있지만 결론은 패리티 디스크를 사용하지 않고 읽기 오류를 수정하기 위해 패리티 디스크를 사용하지 않고 10 테라 바이트의 데이터를 6 번 읽어야한다는 것입니다. 여섯 번의 재건. 전혀 오류없이 60 테라 바이트의 데이터를 읽을 확률은 바람직하지 않습니다.

— Skyhawk

나는 그것을 보지 못했다. 우리는 서버가 생산에서 5 년이 걸릴 때까지 보증을받습니다. 표준 RAID 5를 사용하면 디스크 장애시에도 살아남을 수 있으므로 드라이브를 몇 개만 보관하면 바로 재 구축을 시작할 수 있으며 중요한 서버에서 핫 스페어를 포함 시키거나 RAID 10으로 이동할

수 있습니다 . 여러 드라이브에 장애가 발생한 경우 최근 서버에서 백플레인 문제가있을 수 있습니다. 주변 구조물에서 발생하는 새로운 진동이나 먼지 일 수 있습니다.

— 폴 애 커먼
소스

이것은 전적으로 사실이 아닙니다. 많은 수의 디스크가 동일한 로트에서 나온 경우, 재구성의 스트레스를 추가 할 때 동시 실패의 위험이 훨씬 높아집니다. 다른 답변에서 언급했듯이, RAID5의 크기가 커지면 재구성 중에 URE의 확률이 높아져 어레이가 raid5 유효성 임계 값보다 낮아집니다.

— Magellan