하드 드라이브를 어떻게 구워야합니까?


41

Google은 하드 드라이브 고장에 대한 철저한 연구를 통해 하드 드라이브의 상당 부분이 대량 사용 후 처음 3 개월 내에 고장난 것으로 나타났습니다.

동료들과 저는 테스트를 거치지 않은 새 드라이브에서 시간을 잃어 버릴 수있는 모든 새 하드 드라이브에 대해 번인 (burn-in) 프로세스를 구현할 수 있다고 생각합니다. 그러나 번인 (burn-in) 프로세스를 구현하기 전에 경험이 풍부한 다른 사람들로부터 통찰력을 얻고 자합니다.

  • 하드 드라이브를 사용하기 전에 레코딩하는 것이 얼마나 중요합니까?
  • 번인 프로세스는 어떻게 구현합니까?
    • 하드 드라이브에 얼마나 오래 구울 수 있습니까?
    • 드라이브에서 어떤 소프트웨어를 굽습니까?
  • 번인 공정에 너무 많은 스트레스가 있습니까?

편집 : 비즈니스의 특성으로 인해 RAID를 대부분 사용하는 것은 불가능합니다. 우리는 전국에서 매우 자주 우편물을 배달하는 단일 드라이브에 의존해야합니다. 가능한 한 빨리 드라이브를 백업하지만 데이터를 백업 할 기회를 얻기 전에 여전히 여기 저기 오류가 발생합니다.

최신 정보

우리 회사는 한동안 번인 (burn-in) 프로세스를 구현했으며 매우 유용한 것으로 입증되었습니다. 재고가있는 모든 새 드라이브를 즉시 소각하여 보증 기간이 만료되기 전에 새 컴퓨터 시스템에 설치하기 전에 많은 오류를 찾을 수 있습니다. 드라이브가 제대로 작동하지 않는지 확인하는 것도 유용한 것으로 나타났습니다. 컴퓨터 중 하나에서 오류가 발생하고 하드 드라이브가 주요 용의자 인 경우 해당 드라이브에서 번인 프로세스를 다시 실행하고 RMA 프로세스를 시작하거나 던지기 전에 드라이브에서 실제로 문제가 있는지 확인하기 위해 오류를 확인합니다. 쓰레기통에.

번인 과정은 간단합니다. SATA 포트가 많은 지정된 Ubuntu 시스템이 있으며 각 드라이브에서 4 번의 패스로 읽기 / 쓰기 모드에서 불량 블록을 실행합니다. 작업을 단순화하기 위해 "모든 드라이브에서 데이터가 삭제됩니다"경고를 표시 한 다음 시스템 드라이브를 제외한 모든 드라이브에서 불량 블록을 실행하는 스크립트를 작성했습니다.


15
흥미롭게도 왜 전국의 드라이브를 우편으로 보내십니까? 번인 (burn-in)이 감지하는 이유보다 우편 서비스의 충격 고장 및 일반적인 취급 부주의로 인해 드라이브 고장이 발생할 가능성이 더 높습니다.
Paperjam

6
@Lie Ryan : 메일 링 스토리지 하드웨어는 여전히 데이터를 전송하는 가장 빠른 방법입니다. 인터넷 속도가 매우 느리고 기관 네트워크와 방화벽을 통과해야하는 경우 훨씬 더 나빠집니다.
Jonas

4
@Lie Ryan : 정부 기밀 정보를 다루는 경우 SSH는하지 않습니다 . 일반적으로 해당 데이터가 포함 된 컴퓨터는 공용 인터넷에 연결되어 있지 않을 수 있습니다. 전송할 기가 바이트의 분류 된 데이터가있는 경우 암호화 된 드라이브를 우편으로 보내는 것이 가장 효율적인 옵션입니다.
benzado

3
@ 리 라이언 : Exatly. 인터넷 연결이 매우 빠르더라도 7TB를 제공하는 데 한 달이 걸립니다 (그리고 수신자 및 수신자의 처리량을 제어 할 수있는 사치가 있다면). 다음날 UPS와 함께 7TB가 있습니다.
Jonas

5
엄청난 양의 데이터를 수집하는 이동 팀이있는 경우를 제외하고는 모든 것이 훌륭합니다. 즉, 호텔이나 모바일 인터넷 연결에 의존해야하며 8 시간 이상 한 지점에 있지 않습니다.
Phil

답변:


36

하드 드라이브를 사용하기 전에 레코딩하는 것이 얼마나 중요합니까?

좋은 백업과 고 가용성 시스템이 있다면 그다지 많지 않습니다. 실패로부터 복원하는 것은 매우 쉬워야합니다.

번인 프로세스는 어떻게 구현합니까? 드라이브에서 어떤 소프트웨어를 굽습니까? 번인 공정에 너무 많은 스트레스가 있습니까?

일반적으로 드라이브 나 새 시스템에 대해 불량 블록 을 실행 합니다. 여분의 더미에서 컴퓨터를 부활시킬 때마다 실행합니다. 이와 같은 명령 ( badblocks -c 2048 -sw /dev/sde)은 실제로 다른 패턴 (0xaa, 0x55, 0xff, 0x00)으로 매번 4 번 모든 블록에 씁니다. 이 테스트는 많은 임의의 읽기 / 쓰기를 테스트하기 위해 아무 작업도하지 않지만 모든 블록을 쓰고 읽을 수 있음을 증명해야합니다.

벤치마킹 도구 인 bonnie ++ 또는 iometer 를 실행할 수도 있습니다. 이들은 드라이브에 약간의 스트레스를 주어야합니다. 드라이브를 최대로 늘려도 드라이브가 고장 나지 않아야합니다. 따라서 그들이 할 수있는 일을 보려고 할 수도 있습니다. 나는 이것을하지 않습니다. 나중에 설치 / 설정시 스토리지 시스템의 I / O 벤치 마크를 얻는 것이 성능 문제를보고있을 때 매우 유용 할 수 있습니다.

하드 드라이브에 얼마나 오래 구울 수 있습니까?

내 생각에는 한 번의 불량 차단만으로도 충분하지만, 나는 매우 강력한 백업 시스템을 가지고 있으며 내 HA 요구는 그다지 높지 않다고 생각합니다. 지원하는 대부분의 시스템에서 서비스를 복원하기 위해 가동 중지 시간을 줄 수 있습니다. 걱정되는 경우 다중 패스 설정이 필요하다고 생각되면 RAID, 백업 및 HA 설정이 양호해야합니다.

급한 경우 번인을 건너 뛸 수 있습니다. 내 백업과 RAID는 정상입니다.


49

IMNSHO, 불량 드라이브를 제거하고 데이터를 "보호"하기 위해 번인 (burn-in) 프로세스에 의존해서는 안됩니다. 이 절차를 개발하고 구현하면 다른 곳에서 더 잘 사용할 수있는 시간이 걸리며 드라이브가 번인을 통과하더라도 몇 달 후에도 실패 할 수 있습니다.

데이터를 보호하려면 RAID 및 백업을 사용해야합니다. 일단 설치되면 드라이브에 대해 걱정하십시오. 좋은 RAID 컨트롤러와 스토리지 서브 시스템은 데이터를 자주 이동하고 모든 것이 양호하다는 '스크러빙'프로세스를 갖습니다.

일단 모든 것이 처리되면 디스크 스크러빙을 할 필요가 없지만, 다른 사람들이 언급했듯이 모든 것이 예상대로 작동하는지 확인하기 위해 시스템 부하 테스트를 수행하는 것은 아프지 않습니다. 개별 디스크에 대해서는 전혀 걱정하지 않습니다.


의견에서 언급했듯이 특정 사용 사례에 하드 드라이브를 사용하는 것은 의미가 없습니다. 배송하면 번인 할 때 데이터 오류가 발생하지 않을 가능성이 훨씬 높습니다.

테이프 미디어는 주변에 배송되도록 설계되었습니다. 단일 IBM TS1140 드라이브로 하드 드라이브보다 빠른 250MBps (또는 최대 650MBps 압축)를 얻을 수 있습니다. 또한 한 개의 카트리지로 최대 4TB (비 압축)를 제공 할 수 있습니다.

테이프를 사용하지 않으려면 SSD를 사용하십시오. HDD보다 훨씬 거칠게 취급 할 수 있으며 지금까지 모든 요구 사항을 충족합니다.


그 후, 귀하의 질문에 대한 답변은 다음과 같습니다.

  • 하드 드라이브를 사용하기 전에 레코딩하는 것이 얼마나 중요합니까?
    전혀.
  • 번인 프로세스는 어떻게 구현합니까?
    • 하드 드라이브에 얼마나 오래 구울 수 있습니까?
      하나 또는 두 개의 실행.
    • 드라이브에서 어떤 소프트웨어를 굽습니까?
      의 간단한 실행 말, shred그리고 badblocks할 것입니다. 나중에 SMART 데이터를 확인하십시오.
  • 번인 공정에 너무 많은 스트레스가 있습니까?
    너무 스트레스가 없습니다. 디스크를 터뜨리지 않고 디스크에 물건을 던질 수 있어야합니다.

1
이 게시물에 대한 유일한 후회는 한 번만 투표 할 수 있다는 것입니다. @ 필, 거기서 바퀴를 다시 발명하고 있습니다. 임의 드라이브 (또는 기타 관련 하드웨어)에 대한 데이터 손실을 방지하는 방법은 백업 및 RAID 어레이입니다.
Rob Moir

8
나는 당신이 그것에 의존해서는 안된다는 것에 동의하지만, 생산에 들어가기 전에 시스템에 대해 스캔을 실행하면 몇 번의 잠재적 인 문제가 확인되었습니다. 서두르지 않는다면 컴퓨터가 하루나 이틀 동안 스스로 스캔하도록해도 아무런 문제가 없습니다.
Zoredache

7
이 답변은 가장 높은 투표율을 보였지만 가장 많이 답변하지 못했습니다. OP는 RAID가 불가능하다고 진술했다. "단일 드라이브가 전국으로 우송되는 경우"라면 공격대를 구축 할 수 없습니다. 백업 프로세스가 진행 중이지만 OP는 드라이브가 고장난 경우 시간을 절약 할 수있는 모든 것을 찾고자하는 것 같습니다. (참고 : OP와 같은 회사에서 근무하고 있으므로 상황을 알면 데이터가 전달되면 RAID에 복사됩니다.) 드라이브에 화상을 입어야한다면 어떻게해야합니까?
jsmith

3
이 경우 질문은이 문맥을 제공해야합니다. "달팽이 우편 /화물을 통해 하드 드라이브를 보내야합니다. 고장을 최소화하기 위해 배송하기 전에 번인 (burn-in) 테스트를 어떻게 수행해야합니까?" 재미있게도 대답은 변하지 않습니다. 드라이브 쌍을 보내십시오! 또는 테이프를 사용하십시오. 테이프는 이러한 방식으로 사용 되도록 설계되었으며 HDD는 그렇지 않습니다. 자세한 내용은 다른 답변으로 이어집니다.
MikeyB

2
테이프는 하드 드라이브만큼 빠르게 데이터를 쓸 수 없습니까? 250MBps (비 압축)로는 충분하지 않습니까? 번인 (burn-in) 프로세스는 실제로 사용 사례의 장애를 방지하는 데 도움이되지 않습니다.
MikeyB

8

명확히하면 번인 프로세스가 당신에게 유용 할 것 같지 않습니다. 드라이브는 주로 열과 진동과 같은 기계적 요인으로 인해 고장납니다. 숨겨진 시한 폭탄 때문이 아닙니다 "번인 (burn-in)"프로세스는 다른 것만 큼 설치 환경을 테스트합니다. 일단 물건을 옮기면 시작한 곳으로 돌아갑니다.

그러나 여기 도움이 될만한 몇 가지 조언이 있습니다.

랩탑 드라이브는 일반적으로 데스크탑 드라이브보다 더 큰 충격과 진동을 견디도록 설계되었습니다. 데이터 복구 상점에서 일하는 친구들은 항상 이런 이유로 노트북 드라이브의 클라이언트에게 데이터를 배송합니다. 이 사실을 테스트 한 적은 없지만 일부 산업에서는 "공통 지식"인 것 같습니다.

플래시 드라이브 (예 : USB 썸 드라이브)는 찾을 수있는 모든 매체 중에서 가장 충격에 강합니다. 플래시 미디어를 사용하면 전송중인 데이터가 손실 될 가능성이 훨씬 줄어 듭니다.

윈체스터 드라이브를 배송 할 경우 사용하기 전에 표면 스캔을 수행하십시오. 또는 더 나은 방법으로 사용 하지 마십시오 . 대신, 특정 드라이브를 "배송"드라이브로 지정하여 모든 악용 사례를 볼 수 있지만 데이터 무결성에 의존하지는 않습니다. (즉, 운송을 위해 드라이브에 데이터를 복사, 운송 후 복사, 양면에 매우 많은 체크섬이 있습니다).


"물건을 옮기면 시작한 곳으로 돌아갑니다." - 사실이 아니다. 디스크의 MTTF 그래프는 다음과 같습니다. cs.cmu.edu/~bianca/fast/img13.png cs.ucla.edu/classes/spring09/cs111/scribe/16/… 초기 테스트는 필터링 할 수 있습니다 문제가 많은 드라이브 중에서 제조업체는 실제로 이러한 스트레스 테스트를 수행하여보다 안정적인 제품을 만들지 만 그래프가 평평해질 때까지 테스트를 수행하는 것은 경제적이지 않습니다.
Karoly Horvath

3
@ yi_H : tylerl은 아마도 초기 실패의 원인이 배송 과정 자체 때문일 수 있음을 암시한다고 생각합니다 (불가능하지 않습니다. 드라이브 실패와 메일 링 빈도를 나타내는 그래프를보고 싶습니다). 전국적으로 MTTF가 재설정됩니다. 3 개월마다 드라이브를 우편으로 보내면 항상 조기 장애 구역에있게됩니다.
Lie Ryan

5

프로세스가 잘못되었습니다. 레이드 배열을 사용해야합니다. 내가 일하는 곳에서 우리는 운반하기 위해 설계된 견고한 급습 어레이를 만들었습니다. 로켓 과학이 아닙니다. 큰 고무 진동 차단기를 사용하여 대형 인클로저에 드라이브를 충격으로 장착하면 신뢰성이 크게 향상됩니다. (Seagate constellation-es 드라이브는 300G 충격 등급으로 평가되었지만 2G 진동 만 작동하며 작동하지 않습니다. 운송 케이스는 드라이브를 진동으로 분리해야합니다. http://www.novibes.com/Products&productID=62 또는 http : //www.novibes.com/Products&productId=49 [part # 50178])

그러나 실제로 테스트 하드 드라이브에서 굽기를 원하므로 여기로 이동하십시오.

나는 하드 드라이브와 같은 시스템에서 일했고 몇 가지 문제를 발견했습니다.

고장을 일으키는 PCB의 수명주기 테스트를 가속화하기 위해 핫 / 콜드 사이클을 능가하는 것은 없습니다. (핫 콜드 사이클 작동이 훨씬 더 효과적이지만, 특히 HDD 뱅크에서 수행하기가 더 어렵습니다.)

한 번에 획득 할 수있는 드라이브 수에 대한 환경 챔버를 확보하십시오. (이것은 꽤 비싸고, 습격 어레이를 운반하는 것이 더 저렴할 것입니다.) 습도 제어 및 프로그래밍 가능한 램프가 필요한 테스트 챔버에서 건너 뛸 수 없습니다.

최소 저장 온도에서 최대 저장 온도까지 2 개의 반복 온도 램프로 프로그램하면 램프를 가파르게 만들어 하드 드라이브 제조업체의 애플리케이션 엔지니어를 화나게합니다. 12 시간 동안 3 번의 냉온 사이클로 인해 드라이브가 매우 빨리 고장 나게됩니다. 이와 같이 12 시간 이상 드라이브를 실행하십시오. 나중에 일이 있으면 놀랄 것입니다.

나는 이것을 생각하지 않았다 : 내가 일했던 한 곳에서 생산 엔지니어가 동일한 테스트 장비와 함께 더 많은 제품을 선적하기 위해 테스트를 받았지만 테스트 오류가 급증했지만 도착시 사망률이 실제로 떨어졌습니다. 제로.


5

나는 기본적으로 "번인 (burn-in)에 신경 쓰지 말고 백업을 잘하라"는 모든 대답에 동의하지 않습니다.

항상 백업이 있어야하지만 시스템은 레코딩되지 않은 드라이브로 실행 중이기 때문에 어제 9 시간 (보통 10 시간 교대 근무)을 백업에서 복원하는 데 사용했습니다.

RAIDZ2 구성에는 6 개의 드라이브가 있으며 (ZFS는 RAID-6과 동일) 18 시간 동안 약 45 일 동안 실행 된 상자에서 3 개의 드라이브가 죽었습니다.

내가 찾은 최고의 솔루션은 특정 제조업체 (드라이브 앤 매치 안 함)에서 드라이브를 구입 한 다음 제공된 운동 도구를 실행하는 것입니다.

이 경우 Western Digital을 구입하고 부팅 가능한 ISO에서 DOS 기반 드라이브 진단을 사용합니다. 이를 실행하고 임의의 가비지를 전체 디스크에 쓰는 옵션을 실행 한 다음 짧은 SMART 테스트와 긴 SMART 테스트를 차례로 실행합니다. 일반적으로 모든 불량 섹터, 읽기 / 쓰기 재 할당 등을 제거하기에 충분합니다 ...

나는 여전히 한 번에 8 개의 드라이브에 대해 실행할 수 있도록 '일괄 처리'할 적절한 방법을 찾으려고 노력하고 있습니다. Linux 또는 'badblocks'에서 'dd if = / dev / urandom of = / dev / whatever'를 사용할 수 있습니다.

편집 : 나는 그것을 '배치'하는 더 좋은 방법을 찾았습니다. 마지막으로 특정 요구를 해결하기 위해 네트워크에 PXE 부팅 서버를 설정하려고했고 Ultimate Boot CD를 PXE 부팅 할 수 있음을 알게되었습니다. 이제 드라이브 진단을 실행하기 위해 PXE로 부팅 할 수있는 몇 대의 정크 머신이 있습니다.


3
당신은 무엇을 알 수 있습니까? 질문에 대답하고 OP에서 설교하지 않는 답변. +1
elBradford

3
임의의 데이터를 드라이브에 쓰려면 / dev / urandom에서 읽지 마십시오. 그것은 사촌 / dev / random을 막는 것만 큼 느리지 않지만 여전히 느리며 실제로 아무것도 얻지 못합니다. 대신 임의의 키 (/ dev / urandom 또는 / dev / random에서 얻을 수 있음)를 사용하여 일반 dm-crypt 매핑을 설정 한 다음 매핑 된 장치에 dd / dev / zero를 입력하십시오. 아마도 두 배나 더 빠른 속도 일 것입니다. gitlab.com/cryptsetup/cryptsetup/wikis/FrequentlyAskedQuestions "암호화 등급 임의성으로 장치를 지우려면 어떻게해야합니까?" 그 방법에 대한 예가 있습니다.
CVn

우수한 제안 @ MichaelKjörling
Aaron C. de Bruyn

3

하드 드라이브를 사용하기 전에 레코딩하는 것이 얼마나 중요합니까?

그것은 다릅니다.
중복성을 제공하는 RAID에서 사용하는 경우 (1, 5, 6, 10)? 하지 매우.
당신이 그것을 standaolone 사용하는 경우? 조금, 그러나 적어도 내 의견으로는 현명하게 실행하거나 모니터하기 위해 무언가를 실행하는 것이 좋습니다.

이것은 자연스럽게 " 번인 프로세스를 어떻게 구현합니까? "에 대한 나의 대답으로 이어집니다 .
디스크를 "번인 (burn in)"하려고 시도하는 대신 중복 쌍으로 디스크를 실행하고 SMART와 같은 예측 모니터링을 사용하여 드라이브가 고장 나면 알려줍니다. 전체 번인 (실제로 전체 디스크를 사용)을 수행하는 데 필요한 추가 시간이 디스크 오류 및 스왑 아웃을 처리하는 것보다 훨씬 비쌉니다.
RAID와 좋은 백업을 결합하면 영아 사망률을 다룰 때 (또는 노후화 드라이브를 시작할 때 욕조 치료의 다른 쪽 끝)에도 데이터가 매우 안전해야합니다.


1
드라이브가 일정한 위치에 있지 않아 드라이브를 모니터링 할 수 없으면 어떻게합니까? :)
jsmith

2
@jsmith-모니터링 호스트에서 폴링하는 대신 알림을 보내도록합니다. 실제로 모니터링 할 수 없는 상황은 거의 없으며 창의적 사고가 필요한 상황은 거의 없습니다.)
voretaq7

2

Spinrite (grc.com)는 드라이브의 모든 데이터를 읽고 씁니다. 실패하지 않으려는 경우에도 새 드라이브를 사용하는 것이 좋습니다. 레벨 4 (일반적으로 현재 크기의 드라이브의 경우 며칠)에서 실행하는 데 시간이 오래 걸립니다. 또한 비파괴 적이라고 덧붙여 야합니다. 실제로 불량 스팟에 데이터가 있으면 이동하여 복구합니다. 물론 SSD에서는 절대로 실행하지 않습니다.


1

일주일에 한 번 벤치마킹 및 오류 검사로 하드 드라이브를 "번인"하면 충분합니다. 귀하의 게시물 이후로 나는 그런 것을 들어 본 적이 없습니다.

Stroagereview.com의 "6_6_6"에서 인용

1. Connect the drive to a running system. Read SMART values.

2. Do a SMART short self test. Do a SMART long self-test.

3. Zero fill / Wipe the drive with the manufacturer's utility. Entire drive.

4. Run HDTach full read/write. Everest / Sandra, etc all have stress tests. Run hard drive part continously for hours.

5. Run Victoria for Windows Read/Write test and make sure no slow sectors.

6. Drop to DOS. Run MHDD, run a LBA test and see check for slow sectors. Run Read/Write/Verify test. Run drive internal ATA secure erase command.

7. Do a full format.

8. Compare SMART values. If no anomalies, all good to go. Install your OS and continue.

나는 개인적으로 그것이 나쁜 생각이라고 생각합니다.

편집 : 청소 : http://forums.storagereview.com/index.php/topic/27398-new-hdd-burn-in-routines/


0

첫째, 귀하의 유스 케이스에서 테이프 드라이브가 더 나은 옵션이 될 것이라고 제안하는 다른 포스터에 동의합니다.

이것이 가능하지 않은 경우, 전국에 드라이브를 비행해야하는 경우, 더 많은 드라이브를 전송해야하므로 실제 RAID가 옵션으로 보이지 않으므로 고장 위험이 높아집니다. 그러나 하나의 드라이브를 전송하고 다른 드라이브를 원본 사이트에 유지하는 간단한 미러링 체계는 어떻습니까?

그런 다음 드라이브가 도착하지 못하면 새 사본을 만들어 보낼 수 있습니다. 드라이브가 도착하면 정상 상태이면 예비 데이터를 재사용하여 원본 데이터를 보내거나 백업 할 수 있습니다.


0

드라이브가 배송되는 이유를 실제로 말하지 않았습니다. 이것은 단지 데이터를 전송하는 방법입니까, PC에서 부팅 할 준비가 된 완벽한 응용 프로그램 / OS 이미지가 있습니까?

기계적인 문제를 일으키는 드라이브 배송의 위험 때문에 RAID 또는 백업이 스캔보다 낫다는 다른 답변에 동의합니다.

보다 일반적인 방법은 "오류를 포착하고 수정하기 위해 중복 데이터를 사용하는 것"입니다. 즉, 각 데이터 세트에 대해 2 개의 드라이브를 배송하거나 단일 드라이브에 중복 데이터를 배송합니다. Parchive 와 같은 기능을 사용하면 데이터에 정의 된 수준의 중복성을 추가하여 데이터의 많은 부분이 손상된 경우에도 복구 할 수 있습니다. 요즘에는 디스크가 매우 저렴하기 때문에 꼭 필요한 것보다 큰 디스크를 구입하는 것만으로도 드라이브 스캔, 교체 드라이브 배송 또는 2 개의 드라이브 배송보다 저렴합니다.

이렇게하면 드라이브의 치명적이지 않은 고장으로부터 보호 할 수 있습니다. 그러나 이전에 제안한대로 배송을 제외하고는 배송 된 드라이브를 재사용하지 않는 것이 가장 좋습니다. 설치 및 배송되지 않습니다.

이를 통해 많은 양의 데이터 (또는 애플리케이션 / OS 이미지)를 제공하고 경제적 인 수준으로 디스크 오류의 영향을 줄일 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.