얼마나 많은 SMART 섹터 재 할당이 문제를 나타 냅니까?


17

한 달이 지난 NAS 어플라이언스가 있습니다. 하드 드라이브의 SMART 데이터에서 생성 된 경고를 이메일로 보내도록 구성되어 있습니다. 하루 후, 하드 드라이브 중 하나가 섹터가 잘못되어 재 할당되었다고보고했습니다. 첫 주 동안이 숫자는 문제가되는 하드 드라이브의 총 6 개 부문으로 증가했습니다. 한 달 후, 그 수는 재 할당 된 9 개의 섹터에 있습니다. 비율은 확실히 감속하는 것 같습니다.

NAS는 RAID-5 구성에서 6 개의 1.5TB 드라이브로 구성됩니다. 이러한 고용량 드라이브를 사용하면 섹터가 때때로 실패 할 것으로 예상되므로 처음 몇 개의 섹터를 재배치 할 때는 걱정하지 않았습니다. 다른 디스크 중 어느 것도 문제를보고하지 않는다고 생각합니다.

드라이브의 건강 상태에 대해 어느 정도의 재배치 또는 총 재배치 횟수에 대해 걱정해야합니까? 이것은 드라이브 용량에 따라 다를 수 있습니까?


좋은 사람, 제레미 여기에 많은 다른 사람들이 유용하다고 생각하고 답을 찾기가 쉽지 않기 때문에 serverfault에서 최고 중 하나입니다. +2 이상의 가치가 있습니다. NetGear에만 국한된 것이 아니라 일반적인 저장 용량을 위해 질문을 다시 바꾸고 싶을 수도 있습니다.
username

의견을 보내 주셔서 감사합니다. 제안한 내용을 변경하고 상황을 업데이트했습니다.
제레미

1
재 할당 된 하나의 섹터 에서 드라이브를 교체합니다 . 드라이브의 보증 기간 동안 0을 기대해야합니다. 제조업체는 항상이 드라이브에 대한 보증을 준수했습니다.
Michael Hampton

답변:


13

대부분의 구성 요소와 마찬가지로 드라이브에는 욕조 곡선 고장률이 있습니다. 처음에는 많이 실패하고 중간에는 실패율이 낮으며 수명이 다하면 실패합니다.

전체 드라이브가이 곡선을 따르는 것처럼 디스크의 특정 영역도이 곡선을 따릅니다. 드라이브 사용을 시작할 때 많은 섹터 재 할당을 볼 수 있지만 점점 줄어들 것입니다. 수명이 다한 드라이브가 고장 나기 시작하면 점점 더 많은 섹터가 손실되기 시작합니다.

6에 대해 걱정할 필요는 없지만 (드라이브에 따라-제조업체에 문의) 각각의 새로운 재 할당 빈도를보고 확인해야합니다. 열화가 가속화되거나 동일하게 유지되면 걱정하십시오. 그렇지 않으면 초기 침입 기간이 지나도 괜찮습니다.

-아담


작은 점 : MTBF보다 드라이브가 오래 실패합니다. 나는 그들이 예상 수명에 접근함에 따라 그들이 많이 실패한다는 것을 의미한다고 생각합니다.
Eddie

5
구글은 "욕조 곡선"이론을 완전히 철저히 다루지 않았는가?
Insyte

20

" 대용량 디스크 드라이브 인구의 장애 경향 "이라는 주제에 대한 Google의 논문을 다시 읽으면 Adam의 답변이 잘못되었다고 안전하게 말할 수 있다고 생각합니다. 드라이브의 방대한 인구를 분석 한 결과 약 9 %가 0이 아닌 재 할당 횟수를 가졌습니다. 말하는 인용문은 다음과 같습니다.

첫 번째 재 할당 후 드라이브는 재 ​​할당 횟수가없는 드라이브보다 60 일 이내에 실패 할 가능성이 14 배가 넘으므로이 매개 변수의 임계 값도 하나가됩니다.

"오프라인 재 할당"을 처리 할 때는 실제로 요청 된 IO op가 아닌 드라이브의 백그라운드 스크러빙 동안 발견 된 재 할당 인 것이 더 흥미 롭습니다. 그들의 결론 :

첫 번째 오프라인 재 할당 후 드라이브는 오프라인 재 할당이없는 드라이브보다 60 일 이내에 실패 확률이 21 배 이상 높습니다. 총 재 할당보다 더 과감한 효과.

이제부터 제 정책은 재 할당 횟수가 0이 아닌 드라이브를 교체하도록 예약하는 것입니다.


흥미 롭습니다. 그 논문에 대해 들어 봤지만 다시 읽어야 할 수도 있습니다. FWIW, NAS의 6 개 드라이브 중 4 개가 섹터를 재할당했습니다. 답변 해주셔서 감사합니다.
Jeremy

3

드라이브마다 다른 매개 변수가있을 수 있습니다. 마지막으로 확인한 드라이브에는 한 공급 업체의 1TB 엔터프라이즈 시리즈 디스크이며 재 할당을 위해 2048 개의 예약 된 섹터가있었습니다.

재 할당 된 섹터가 0이 아닌 드라이브에 대한 SMART 보고서를보고있는 예약 된 섹터 수를 추정 할 수 있습니다. 아래에서 고장난 드라이브에 대한 보고서를 고려하십시오.

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

여기에는 1955 개의 섹터 인 예약 용량의 95 %가 사용되었습니다. 따라서 초기 용량은 약 2057입니다. 실제로 2048이므로 반올림 오류로 인한 차이입니다.

재 할당 된 섹터 수가 특정 임계 값에 도달하면 SMART는 드라이브를 실패 상태로 전환합니다. 해당 드라이브의 경우이 임계 값은 예약 된 용량의 64 %로 설정됩니다. 약 1310 개의 재 매핑 된 섹터입니다.

그러나 예약 된 섹터는 연속적인 범위에 있지 않습니다. 대신 여러 그룹으로 나뉘어 각 그룹은 디스크의 특정 부분에서 섹터를 다시 매핑하는 데 사용됩니다. 이것은 디스크의 한 영역에 데이터를 로컬로 유지하기 위해 수행됩니다.

로컬 리티의 단점은 디스크에 예약 된 섹터가 많이있을 수 있다는 것입니다. 그러나 한 영역에는 이미 예약 된 용량이 부족할 수 있습니다. 이 경우 동작은 펌웨어에 따라 다릅니다. 한 드라이브에서 FAILED 상태로 바뀌고 더 이상 보호되지 않는 부분에서 오류가 발생하면 차단됩니다.


"재 할당을 위해 2048 개의 예약 된 섹터가 있음"을 어떻게 결정 했습니까?
AJ.

아마도 2047은 재 할당 가능한 최대 섹터 수입니다. "새"로 eBay를 구입할 때 내 드라이브 중 하나가 정확히 2047이었으며 이는 0x7FF이며 b11,111,111,111입니다. 2048로 가면 여분의 비트가 낭비됩니다.
davide

2

드라이브가 지원하는 경우 SMART 긴 자체 테스트를 실행할 수 있습니다. 드라이브 상태에 대한 자세한 정보를 제공 할 수 있습니다. NAS가이 작업을 수행 할 수없고 몇 시간 동안 드라이브를 꺼내거나 NAS의 전원을 끌 수있는 경우 다른 컴퓨터에 연결된 하드 디스크를 사용하여 장기간 자체 테스트를 수행 할 수 있습니다.


1

이 새로운 드라이브가 이런 식으로 작동하면 전혀 신뢰할 수 없습니다!

가능한 빨리 돌려 보내고 교체 용 드라이브를 받으십시오.


1

제조업체마다 "허용 가능한 손실"수가 다릅니다 (모니터 및 불량 픽셀과 동일한 아이디어). 표준이 무엇인지 드라이브 제조업체에 문의하십시오.

그래도 나쁜 추세처럼 보입니다 ...


-1

Western Digital은 RAID에 배치 된 프리즈 디스크 (예 : TLER) ( http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery ) 대신 허용 가능한 시간에 불량 섹터를 복구하는 기술을 자랑스럽게 생각합니다 . 시간은 일반적으로 5..7 초입니다.

웹에서 알 수 있듯이 옵션이 비활성화 된 WD 디스크 드라이브가 있지만 일부 사람들은 저렴한 녹색 WD 드라이브 에서이 기능을 활성화 한 다음 RAID에 넣습니다.

WDTLER 유틸리티는 WD 지원 사이트에서 제거되었지만 Google을 통해 쉽게 검색 할 수 있습니다.

추신 : 나는이 유틸리티를 상태를 읽기 위해서만 사용하고 지금은 RAID를 사용하지 않습니다 :)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.