장애가 발생하기 전에 서버의 하드 드라이브를 변경해야하는 이유가 있습니까?

11

간단한 질문 : x 년 후에 서버의 하드 드라이브를 오류가 발생하기 전에 변경 해야하는 이유가 있습니까 (결국 언젠가는 일어날 것입니다)? 실제 서버 관리 경험이 거의 없으므로 궁금합니다.

hard-drive hardware

— 스피로
소스

나는 많은 답변을 기대하지 않았습니다. 와우 :) 모든 것을 검토하고 다음 사항을 고려한 후 a) 서버의 하드 드라이브가 목적에 적합합니다. b) 백업이 절대적으로 보장됩니다 (RAID + Replication Slave + 매일 백업을 사용하여 외부 소스) 드라이브 변경을 제안 할 이유가 없습니다. 모두 감사합니다!

— Spiros

8

변경해야 할 가장 큰 이유는 할 일 목록에 다른 작업을 추가하고 무언가 잘못 될 가능성을 높이려는 경우입니다.

모든 농담은 제쳐두고, 드라이브를 미리 바꿔야 할 이유가 전혀 없습니다. RAID를 설치 한 경우 이미 적절한 백업이 있다고 가정하고 보호해야하며 폐기 할 데드 드라이브 형태로 폐기물을 생성하지 않으므로 불필요하게 제거 할 필요가 없습니다. 드라이브의 민감한 데이터. 새 드라이브에 추가 비용을 지출하지 않아도 드라이브 결함 소스로 일반적이지 않지만 발생할 수있는 결함이있는 드라이브 컨트롤러와 같이 여전히 어쨌든 잘못 될 수있는 것들을 사전에 보호하지는 않습니다.

반면에 이것은 RAID 5에서 발생했듯이 RAID 장치에서 알람을 트리거하지 않는 복구 불가능한 드라이브 오류를 발견하는 데 도움이 될 수 있습니다. 이로 인해 물 렸으며 백업에서 베어 메탈을 복구해야했습니다. 이 경우 적절한 백업이 복구에 도움이됩니다.) 오늘날의 더 큰 드라이브 용량과 복구 할 수없는 오류 허용치를 고려한 RAID 수준은 백업이 하루를 절약하는 데 도움이되었을 것입니다.

대부분의 관리자는 적절한 RAID 및 백업 계획을 가지고 있으므로 불필요하게 드라이브를 교체하여 추가 낭비를 발생시킬 필요가 없습니다.

— 바트 실버 스트림
소스

6

내가 이것을 고려할 수있는 유일한 시간은 동일한 배치에서 많은 디스크가 있고 배치의 다른 디스크가 실패하기 시작한 경우입니다.

공간이 빡빡했다면 확실히했을 것입니다.하지만 나이가 들었다는 것 외에 다른 이유는 없습니까? 아니요. 첫해의 평균 고장률은 다른 연도의 고장률과 비슷하기 때문 입니다. (그래프는 3 개월, 6 개월, 1 년에 걸쳐 첫해에 발생하지만 1 년에 실패 할 가능성을 얻으려면 모두 함께 추가해야합니다). 또한 디스크 사용률이 높으면 다음 3 년을 합한 것보다 첫해에 실패 할 가능성이 높습니다.

늦은 드라이브 오류와의 유일한 상관 관계는 더 뜨거운 방에서만 발생했으며 서버 방은 시원하게 유지합니다.

— 조 H.
소스

5

나는 적극적으로 행동하지만, 한 번도 해본 적이 없으며 다른 사람의 말을들은 적이 없습니다. 아마도 일부 유형의 RAID 설정이 있고 문제가있는 시스템에 대해 정기적으로 유효한 백업이있을 수 있습니다.

— joeqwerty
소스

5

+1, 고려하지 않았습니다. 디스크를 교체하고 의도적으로 어레이 재 구축을 트리거하는 것이 나머지 프로덕션 디스크를 "운동"하는 가장 좋은 방법은 아닙니다. 재 구축에 실패한 경우 시스템이 다운 된 이유를 보스에게 설명하기가 더 어려워집니다.

— jscott

3

SMART 오류가있는 디스크를 교체하지만 여전히 기술적으로 작동하더라도 디스크가 고장난 것으로 간주합니다.

— Chris S

4

예, 성능과 용량. 기존 하드 드라이브가 70MB / sec 지속 읽기 및 100 IOPS를 수행하고 잠재적 교체가 200MB / sec 지속 읽기 및 175 IOPS를 수행하며 용량이 3 배인 경우 새 드라이브를 구입하고 기존 드라이브를 단순히 새 것으로 교체 할 수 있습니다 성능 / 용량 이유. (그리고 그 숫자는 완전히 구성되어 있으며, 요점은 더 빠를 수 있습니다.)

이제 이전 드라이브로 무엇을합니까? 테스트 서버에서 사용하거나 디스크 백업에 추가하거나 비상용 예비로 보유 할 수 있습니다. 아니면 그냥 닦아서 폐기 할 수도 있습니다.

현재 평균 서버 수는 프로세서 바운드 (또는 적어도 모든 서버)보다 IO 바운드입니다. 따라서 CPU 시간이나 메모리 부족에 문제가없는 오래된 서버가 있다면 쉽게 구입할 수있는 제품보다 몇 세대 뒤에있는 하드 드라이브를 교체하여 성능을 크게 향상시킬 여지가 있습니다.

— pplrppl
소스

3

하드 드라이브 결함의 영향에 따라 다릅니다.

RAID
가없는 경우 서비스가 중지 될 수 있거나 가용성이 높고 데이터 백업 작업이있어 서버 가용성에 관심이없는 경우. 나는 Ok라고 말할 것입니다. 드라이브는 죽게하고 변경하고 실패 할 때 데이터를 복원하십시오.
가용성에 관심이 있다면 RAID 사용이라고 말하겠습니다.)

RAID (1, 5, 6, ...)
가 있다면 고장 전에 하드 드라이브를 변경하는 이유는 무엇입니까? RAID (및 백업)가 여기에 있습니다. 고장이 발생할 경우를 대비하여 하드 드라이브를 교체하는 것은 무언가를 파기 할 위험이 있습니다 (공격 재구성은 항상 위험합니다)

그러나 그것은 나의 관점 일뿐입니다! 드라이브가 너무 오래되었다고 생각되면 서버도 변경하고 싶을 수 있습니다.

— 반지름
소스

2

어떤 디스크는 1 시간 안에 죽고 다른 디스크는 20 년 동안 지속됩니다.

그것이 실패하거나 실패하지 않으면 (일반적으로 SMART 모니터링 또는 성능 문제를 통해 확립 할 수있는 것), 그것을 버릴 유일한 다른 이유는 목적에 맞게 충분히 크거나 빠르지 않은 것입니다.

— 크리스 소프
소스

1

SMART로 드라이브를 모니터링하면 너무 늦기 전에 일반적으로 고장 징후가 표시됩니다.

— 교수 Moriarty

@Prof Google의 대량 디스크 연구에 따르면 SMART는 시간의 44 % -72 %를 "보통"신뢰할 수있었습니다. static.googleusercontent.com/external_content/untrusted_dlcp/…

— jscott

2

디스크로, 문제가없는 경우 가 실패하지만 것이다 때 . 그들은 SSD를 사용하지 않는 한 자체 장치가 있기 때문에 기계 장치이므로 조만간 실패 할 것입니다.

디스크 공급 업체는 수천 개의 디스크를 생산 및 판매 할 때 디스크 당 1 센트 만 절약해도 매우 중요하기 때문에 제조 프로세스를 가능한 한 저렴하게 조정하는 경향이 있습니다. 물론 그들은 보증 기간이 끝나기 전에 디스크가 고장 나지 않기를 원하거나 항상 무료로 교체 할 것입니다. 따라서 보증 기간 동안 보증 기간 동안 필요한만큼만 소비 할 수 있지만 1 센트 이상은 소비하지 않습니다.

최종 결과는 다음과 같습니다. 대부분의 디스크는 보증 기간이 끝난 후 곧 고장납니다. 이것은 물론 일반적인 규칙이 아니며 통계 일 뿐이며 이제는 더 이상 필요하지 않을 때까지 지금 또는 마지막으로 디스크가 고장날 수 있습니다 ...하지만 통계적으로 몇 일 또는 몇 달 후에 고장난 디스크가 많이 있습니다 보증이 만료되었습니다.

물론, 여전히 필요하지 않은 새 제품을 구입하면 많은 비용이 소요될 수 있습니다. 그러나 보증 기간이 만료되어 고장난 후에 교체하면 비용이 많이 듭니다.

그래도 여전히 보증하면서 실패 할 수있는 방법을 찾을 수 있다면 (그리고 프로세스에서 데이터를 잃지 않는 것, 즉 좋은 RAID 및 백업을 갖는 것 ), 그것은 최적입니다 ;-)

— 마시모
소스

2

작동 전원 공급 장치를 교체하는 것보다 작동 드라이브를 교체하지 않습니다. 둘 다 결국 실패하지만 기술적으로나 재정적으로 정당한 이유없이 그것들을 교체하는 것은 의미가 없습니다. 문제가 발생하기 시작하면 교체하십시오.

하드 드라이브의 경우 드라이브가 조기에 고장날 경우 첫해에 실패 할 가능성이 높습니다. 6 년 동안 문제없이 작동 한 드라이브는 일반적으로 최소 몇 년 동안 더 이상 작동을 유지하는 데 일반적으로 의존 할 수 있습니다. 분명히 많은 예외가 있지만 일반적인 추세입니다.

— 존 가든 리 어스
소스

1

전원 공급 장치에 장애가 발생하더라도 데이터를 잃지 않습니다.

— Massimo

1

@Massimo-True, 그러나 서버에서는 한 드라이브가 고장 나더라도 일반적으로 데이터를 잃지 않습니다. 내 의견으로는, 중복성이 없다면 실제 서버가 아닌 영광스러운 워크 스테이션 일뿐입니다.

— John Gardeniers

1

또한 대부분의 서버급 드라이브에는보다 엄격한 제조 요구 사항이 있으며 일반적으로 저비용 / 예산 데스크탑 드라이브보다 더 안정적입니다. 따라서 고장이 났을 때 '좋은'드라이브를 교체 할 위험을 제외하고, 큰 어레이에이를 수행하면 많은 비용이 발생할 수 있습니다.

또한 RAID를 사용할 때 서버에 하나 이상의 핫 스페어가있는 것이 좋습니다. 따라서 필요에 따라 교체품을 구입할 때까지 신속하게 재 구축을 시작하고 상태를 유지할 수 있습니다.

— 사용자 2626
소스

1

"제로 다운 타임"시스템에서 해냈습니다. 실제로 RAID를 재 구축 할 때 다른 드라이브 를 잃어 버릴 수 있습니다 ... 한 번 스왑 한 다음 다시 작성하는 동안 다른 드라이브에서 오류가 발생하기 시작하면 다시 스왑됩니다.

그것은 철학적 인 질문입니다 : 만약 당신이 능동적 스트레스 테스트 (어레이와 심혈관 시스템 모두)를 믿는다면 드라이브를 교체해야합니다. 그러나 실제로는 다음에 어떤 드라이브가 나빠질 지 절대 알 수 없습니다. 입증 된 구형 드라이브를 잃기 전에 새로 교체 한 드라이브를 잃을 가능성은 전혀 없습니다.

즉, 백업 솔루션 스트레스 테스트에 시간을 낭비하고 실제로 오류가 발생하기 시작할 때까지 드라이브를 안전하게 유지합니다.

— 사탄의 강아지
소스