답변:
Google은 디스크 드라이브에 대한 연구를 수행했으며 디스크 사용 기간과 오류 사이의 상관 관계가 거의 없음을 발견했습니다. SMART 테스트도 실패를 나타내지 않습니다.
내 로컬 관찰 (> 500 서버)도 비슷합니다. 오래된 디스크는 여전히 쇠약 해지면서 새 디스크는 빨리 고장납니다.
나의 일반적인 규칙은 디스크 문제 (SMART 또는 시스템 오류)를 발견하면 즉시 교체하는 것입니다. 그렇지 않으면 서버가 작동 할 때 드라이브가 순환됩니다.
아니.
활성 프로덕션 서버에서 하드 드라이브를 교체 할 때 가장 큰 문제 중 하나는 그렇게하면 재 구축이 트리거된다는 것입니다. 특히 RAID5를 사용하는 경우, 특히 큰 드라이브를 사용하는 경우 재구성을 강제 실행하면 복구 할 수없는 장애가 발생할 위험이 매우 높습니다. 재 구축 중에 어레이가 손실 될 위험은 3 년 된 드라이브를 제자리에 두는 것과 관련된 위험보다 훨씬 큽니다.
극단적 인 예를 들어, 2TB 디스크로 구성된 6 디스크 RAID5 어레이의 모든 디스크를 연속적으로 교체하는 경우, 재구성 중 하나에서 복구 할 수없는 읽기 오류의 이론적 위험은 58 % 정도입니다 (나이프 수학에 따르면). 직접 작성하고 메모를 비교하십시오). 다시 말해, "예방적인"디스크 교체는 사실상 방해 행위에 지나지 않습니다 .
오래된 서버에서 드라이브를 새로 고치는 것을 고려할 수있는 유일한 시간은 예를 들어 한 작업에서 서비스를 해제 한 후 새 역할을 수행하여 서비스를 다시 시작하기 전에 "새로 고침"하는 것입니다. 이 시점에서도 용량 및 성능 요구 사항은 드라이브 수명보다 훨씬 중요합니다.
나는 그것을 보지 못했다. 우리는 서버가 생산에서 5 년이 걸릴 때까지 보증을받습니다. 표준 RAID 5를 사용하면 디스크 장애시에도 살아남을 수 있으므로 드라이브를 몇 개만 보관하면 바로 재 구축을 시작할 수 있으며 중요한 서버에서 핫 스페어를 포함 시키거나 RAID 10으로 이동할
수 있습니다 . 여러 드라이브에 장애가 발생한 경우 최근 서버에서 백플레인 문제가있을 수 있습니다. 주변 구조물에서 발생하는 새로운 진동이나 먼지 일 수 있습니다.