장애가 발생하기 전에 서버의 하드 드라이브를 변경해야하는 이유가 있습니까?


11

간단한 질문 : x 년 후에 서버의 하드 드라이브를 오류가 발생하기 전에 변경 해야하는 이유가 있습니까 (결국 언젠가는 일어날 것입니다)? 실제 서버 관리 경험이 거의 없으므로 궁금합니다.


나는 많은 답변을 기대하지 않았습니다. 와우 :) 모든 것을 검토하고 다음 사항을 고려한 후 a) 서버의 하드 드라이브가 목적에 적합합니다. b) 백업이 절대적으로 보장됩니다 (RAID + Replication Slave + 매일 백업을 사용하여 외부 소스) 드라이브 변경을 제안 할 이유가 없습니다. 모두 감사합니다!
Spiros

답변:


8

변경해야 할 가장 큰 이유는 할 일 목록에 다른 작업을 추가하고 무언가 잘못 될 가능성을 높이려는 경우입니다.

모든 농담은 제쳐두고, 드라이브를 미리 바꿔야 할 이유가 전혀 없습니다. RAID를 설치 한 경우 이미 적절한 백업이 있다고 가정하고 보호해야하며 폐기 할 데드 드라이브 형태로 폐기물을 생성하지 않으므로 불필요하게 제거 할 필요가 없습니다. 드라이브의 민감한 데이터. 새 드라이브에 추가 비용을 지출하지 않아도 드라이브 결함 소스로 일반적이지 않지만 발생할 수있는 결함이있는 드라이브 컨트롤러와 같이 여전히 어쨌든 잘못 될 수있는 것들을 사전에 보호하지는 않습니다.

반면에 이것은 RAID 5에서 발생했듯이 RAID 장치에서 알람을 트리거하지 않는 복구 불가능한 드라이브 오류를 발견하는 데 도움이 될 수 있습니다. 이로 인해 물 렸으며 백업에서 베어 메탈을 복구해야했습니다. 이 경우 적절한 백업이 복구에 도움이됩니다.) 오늘날의 더 큰 드라이브 용량과 복구 할 수없는 오류 허용치를 고려한 RAID 수준은 백업이 하루를 절약하는 데 도움이되었을 것입니다.

대부분의 관리자는 적절한 RAID 및 백업 계획을 가지고 있으므로 불필요하게 드라이브를 교체하여 추가 낭비를 발생시킬 필요가 없습니다.


6

내가 이것을 고려할 수있는 유일한 시간은 동일한 배치에서 많은 디스크가 있고 배치의 다른 디스크가 실패하기 시작한 경우입니다.

공간이 빡빡했다면 확실히했을 것입니다.하지만 나이가 들었다는 것 외에 다른 이유는 없습니까? 아니요. 첫해의 평균 고장률은 다른 연도의 고장률과 비슷하기 때문 입니다. (그래프는 3 개월, 6 개월, 1 년에 걸쳐 첫해에 발생하지만 1 년에 실패 할 가능성을 얻으려면 모두 함께 추가해야합니다). 또한 디스크 사용률이 높으면 다음 3 년을 합한 것보다 첫해에 실패 할 가능성이 높습니다.

늦은 드라이브 오류와의 유일한 상관 관계는 더 뜨거운 방에서만 발생했으며 서버 방은 시원하게 유지합니다.


5

나는 적극적으로 행동하지만, 한 번도 해본 적이 없으며 다른 사람의 말을들은 적이 없습니다. 아마도 일부 유형의 RAID 설정이 있고 문제가있는 시스템에 대해 정기적으로 유효한 백업이있을 수 있습니다.


5
+1, 고려하지 않았습니다. 디스크를 교체하고 의도적으로 어레이 재 구축을 트리거하는 것이 나머지 프로덕션 디스크를 "운동"하는 가장 좋은 방법은 아닙니다. 재 구축에 실패한 경우 시스템이 다운 된 이유를 보스에게 설명하기가 더 어려워집니다.
jscott

3
SMART 오류가있는 디스크를 교체하지만 여전히 기술적으로 작동하더라도 디스크가 고장난 것으로 간주합니다.
Chris S

4

예, 성능과 용량. 기존 하드 드라이브가 70MB / sec 지속 읽기 및 100 IOPS를 수행하고 잠재적 교체가 200MB / sec 지속 읽기 및 175 IOPS를 수행하며 용량이 3 배인 경우 새 드라이브를 구입하고 기존 드라이브를 단순히 새 것으로 교체 할 수 있습니다 성능 / 용량 이유. (그리고 그 숫자는 완전히 구성되어 있으며, 요점은 더 빠를 수 있습니다.)

이제 이전 드라이브로 무엇을합니까? 테스트 서버에서 사용하거나 디스크 백업에 추가하거나 비상용 예비로 보유 할 수 있습니다. 아니면 그냥 닦아서 폐기 할 수도 있습니다.

현재 평균 서버 수는 프로세서 바운드 (또는 적어도 모든 서버)보다 IO 바운드입니다. 따라서 CPU 시간이나 메모리 부족에 문제가없는 오래된 서버가 있다면 쉽게 구입할 수있는 제품보다 몇 세대 뒤에있는 하드 드라이브를 교체하여 성능을 크게 향상시킬 여지가 있습니다.


3

하드 드라이브 결함의 영향에 따라 다릅니다.

RAID
가없는 경우 서비스가 중지 될 수 있거나 가용성이 높고 데이터 백업 작업이있어 ​​서버 가용성에 관심이없는 경우. 나는 Ok라고 말할 것입니다. 드라이브는 죽게하고 변경하고 실패 할 때 데이터를 복원하십시오.
가용성에 관심이 있다면 RAID 사용이라고 말하겠습니다.)

RAID (1, 5, 6, ...)
가 있다면 고장 전에 하드 드라이브를 변경하는 이유는 무엇입니까? RAID (및 백업)가 여기에 있습니다. 고장이 발생할 경우를 대비하여 하드 드라이브를 교체하는 것은 무언가를 파기 할 위험이 있습니다 (공격 재구성은 항상 위험합니다)

그러나 그것은 나의 관점 일뿐입니다! 드라이브가 너무 오래되었다고 생각되면 서버도 변경하고 싶을 수 있습니다.


2

어떤 디스크는 1 시간 안에 죽고 다른 디스크는 20 년 동안 지속됩니다.

그것이 실패하거나 실패하지 않으면 (일반적으로 SMART 모니터링 또는 성능 문제를 통해 확립 할 수있는 것), 그것을 버릴 유일한 다른 이유는 목적에 맞게 충분히 크거나 빠르지 않은 것입니다.


1
SMART로 드라이브를 모니터링하면 너무 늦기 전에 일반적으로 고장 징후가 표시됩니다.
교수 Moriarty

@Prof Google의 대량 디스크 연구에 따르면 SMART는 시간의 44 % -72 %를 "보통"신뢰할 수있었습니다. static.googleusercontent.com/external_content/untrusted_dlcp/…
jscott

2

디스크로, 문제가없는 경우 가 실패하지만 것이다 . 그들은 SSD를 사용하지 않는 한 자체 장치가 있기 때문에 기계 장치이므로 조만간 실패 할 것입니다.

디스크 공급 업체는 수천 개의 디스크를 생산 및 판매 할 때 디스크 당 1 센트 만 절약해도 매우 중요하기 때문에 제조 프로세스를 가능한 한 저렴하게 조정하는 경향이 있습니다. 물론 그들은 보증 기간이 끝나기 전에 디스크가 고장 나지 않기를 원하거나 항상 무료로 교체 할 것입니다. 따라서 보증 기간 동안 보증 기간 동안 필요한만큼만 소비 할 수 있지만 1 센트 이상은 소비하지 않습니다.

최종 결과는 다음과 같습니다. 대부분의 디스크는 보증 기간이 끝난 후 곧 고장납니다. 이것은 물론 일반적인 규칙이 아니며 통계 일 뿐이며 이제는 더 이상 필요하지 않을 때까지 지금 또는 마지막으로 디스크가 고장날 수 있습니다 ...하지만 통계적으로 몇 일 또는 몇 달 후에 고장난 디스크가 많이 있습니다 보증이 만료되었습니다.

물론, 여전히 필요하지 않은 새 제품을 구입하면 많은 비용이 소요될 수 있습니다. 그러나 보증 기간이 만료되어 고장난 후에 교체하면 비용이 많이 듭니다.

그래도 여전히 보증하면서 실패 할 수있는 방법을 찾을 수 있다면 (그리고 프로세스에서 데이터를 잃지 않는 것, 즉 좋은 RAID 백업을 갖는 것 ), 그것은 최적입니다 ;-)


2

작동 전원 공급 장치를 교체하는 것보다 작동 드라이브를 교체하지 않습니다. 둘 다 결국 실패하지만 기술적으로나 재정적으로 정당한 이유없이 그것들을 교체하는 것은 의미가 없습니다. 문제가 발생하기 시작하면 교체하십시오.

하드 드라이브의 경우 드라이브가 조기에 고장날 경우 첫해에 실패 할 가능성이 높습니다. 6 년 동안 문제없이 작동 한 드라이브는 일반적으로 최소 몇 년 동안 더 이상 작동을 유지하는 데 일반적으로 의존 할 수 있습니다. 분명히 많은 예외가 있지만 일반적인 추세입니다.


1
전원 공급 장치에 장애가 발생하더라도 데이터를 잃지 않습니다.
Massimo

1
@Massimo-True, 그러나 서버에서는 한 드라이브가 고장 나더라도 일반적으로 데이터를 잃지 않습니다. 내 의견으로는, 중복성이 없다면 실제 서버가 아닌 영광스러운 워크 스테이션 일뿐입니다.
John Gardeniers

1

또한 대부분의 서버급 드라이브에는보다 엄격한 제조 요구 사항이 있으며 일반적으로 저비용 / 예산 데스크탑 드라이브보다 더 안정적입니다. 따라서 고장이 났을 때 '좋은'드라이브를 교체 할 위험을 제외하고, 큰 어레이에이를 수행하면 많은 비용이 발생할 수 있습니다.

또한 RAID를 사용할 때 서버에 하나 이상의 핫 스페어가있는 것이 좋습니다. 따라서 필요에 따라 교체품을 구입할 때까지 신속하게 재 구축을 시작하고 상태를 유지할 수 있습니다.


1

"제로 다운 타임"시스템에서 해냈습니다. 실제로 RAID를 재 구축 할 때 다른 드라이브 를 잃어 버릴 수 있습니다 ... 한 번 스왑 한 다음 다시 작성하는 동안 다른 드라이브에서 오류가 발생하기 시작하면 다시 스왑됩니다.

그것은 철학적 인 질문입니다 : 만약 당신이 능동적 스트레스 테스트 (어레이와 심혈관 시스템 모두)를 믿는다면 드라이브를 교체해야합니다. 그러나 실제로는 다음에 어떤 드라이브가 나빠질 지 절대 알 수 없습니다. 입증 된 구형 드라이브를 잃기 전에 새로 교체 한 드라이브를 잃을 가능성은 전혀 없습니다.

즉, 백업 솔루션 스트레스 테스트에 시간을 낭비하고 실제로 오류가 발생하기 시작할 때까지 드라이브를 안전하게 유지합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.