왜 다른 제조업체들이 다른 S.M.A.R.T 값을 갖고 있습니까?


23

우선, 나는 하드 드라이브가 제조사가 원하는 것보다 더 많이 실패한다는 것을 모든 사람들이 알고 있다고 생각한다. 들이다 . Google은 연구 하드 드라이브의 S.M.A.R.T 상태가보고하는 특정 원시 데이터 속성이 드라이브의 미래 장애와 강한 상관 관계를 가질 수 있음을 나타냅니다.

예를 들어 첫 스캔 오류가 발생한 후 드라이브는 오류가없는 드라이브보다 60 일 이내에 39 회 이상 오류가 발생할 가능성이 높습니다. 재 할당, 오프라인 재 할당 및 시험 적 횟수의 첫 번째 오류는 또한 높은 실패 확률과 밀접한 상관 관계가 있습니다. 이러한 강력한 상관 관계에도 불구하고 SMART 매개 변수만을 기반으로 한 실패 예측 모델은 SMART 오류 신호가 전혀 표시되지 않은 실패한 드라이브의 상당 부분을 감안할 때 예상 정확도가 심각하게 제한 될 수 있습니다.

Seagate는 드라이브에 관한이 정보를 모호하게하려는 것처럼 보입니다. 청구하다 그들의 소프트웨어 만이 드라이브의 정확한 상태를 정확하게 결정할 수 있으며 소프트웨어가 S.M.A.R.T 속성의 원시 데이터 값을 알려주지 못하게합니다. Western Digital은 본인의 지식에 대해 그러한 주장을하지 않았지만 상태보고 도구는 원시 데이터 값을보고하지 않습니다.

각 속성의 원시 데이터 값을 수집하기 위해 smartmontools의 HDtune 및 smartctl을 사용했습니다. 나는 그것을 실제로 발견했습니다 ... 사과와 오렌지를 비교할 때 어떤 속성에 관해서는 말입니다. 예를 들어 대부분의 Seagate 드라이브는 수백만 개의 읽기 오류를보고하며 서부 디지털 99 %는 읽기 오류 0을 표시합니다. Western Digital은 항상 0을보고하는 것처럼 보이지만 Seagate는 수 많은 오류를보고합니다.

:이 데이터를 정규화하려면 어떻게합니까? Western Digital이 아무 것도 생산하지 않는 동안 Seagate는 수백만 개의 오류를 생성합니까? Wikipedia의 기사 똑똑한 상태는 제조업체가이 데이터를보고하는 다양한 방법을 가지고 있다고 말합니다.

나의 가설은 다음과 같다.

데이터를 정규화하는 방법을 찾았다 고 생각합니다.

Seagate 드라이브에는 Western Digital 드라이브에없는 추가 속성이 있습니다 (Hardware ECC Recovered). ECC Recovered 카운트에서 읽기 오류 카운트를 빼면 아마 0으로 끝날 것입니다. 이것은 Western Digitals가 "Read Error"카운트를보고 한 것과 같습니다. 즉 Western Digital은 Seagate가 모든 읽기 오류를 계산하는 동안 수정할 수없는 읽기 오류 만보고하고 해결할 수 있었던 오류 수를 알려줍니다.

읽기 오류 횟수가 ECC 복구 횟수보다 적은 Seagate 드라이브가 있었고 많은 파일이 손상된 것으로 나타났습니다. 이것은 내가 어떻게 내 가설을 생각해 냈는지입니다. Seagate가 생산하는 수백만 건의 검색 오류는 여전히 나에게 수수께끼입니다.

추가 정보가있는 경우 가설을 확인하거나 수정하십시오.

여기 내 서부 디지털 드라이브의 현명한 상태가 있습니다. 그래서 내가 말하는 것을 볼 수 있습니다.

james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD1001FALS-00E3A0
Serial Number:    WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity:    1,000,204,886,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   179   175   021    Pre-fail  Always       -       4033
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       270
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       1468
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       262
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       46
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       223
194 Temperature_Celsius     0x0022   105   102   000    Old_age   Always       -       42
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

편집 : 여기 데이터 손상을 일으키는 Seagate 드라이브가 있습니다. 이 데이터는 HDTune에서 가져온 것입니다.

HD Tune: ST3250623A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         45       38       6        77882492   Ok       
(03) Spin Up Time                99       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       640        Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             85       60       30       359872048  Ok       
(09) Power On Hours Count        94       94       0        6028       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           100      100      20       689        Ok       
(C2) Temperature                 25       55       0        25         Ok       
(C3) Hardware ECC Recovered      50       47       0        201555081  Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      199      0        1          Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6028
Health Status         : Ok

Hardware ECC Recovered가 Raw Read Error Rate보다 크다는 사실은 제 의견으로는 직관적이지 않습니다.

이것이 ECC 복구가 Raw Read Error Rate와 일치하는 "정상적인"seagate 드라이브 인 것으로 나타났습니다.

HD Tune: ST380011A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         62       46       6        79986164   Ok       
(03) Spin Up Time                98       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       6          Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             83       60       30       210309663  Ok       
(09) Power On Hours Count        93       93       0        6516       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           99       99       20       1325       Ok       
(C2) Temperature                 25       52       0        25         Ok       
(C3) Hardware ECC Recovered      62       46       0        79986164   Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      188      0        18         Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6516
Health Status         : Ok

편집하다:

나는 구글이 일반적으로 S.M.A.R.T가 쓸모 없다고 생각한다는 것을 분명히하고 싶다. 모든 사람들이 데이터를 백업해야한다는 것을 알고 있습니다. 그러나 나는 다른 사람들의 컴퓨터를 고치는 사업에 종사하고있다. 대부분의 사람들은 백업이 없거나 RAID를 가지고 있습니다. 기업이 하드 드라이브 문제를 해결하는 것은 비용 효율적이지 않으므로 죽을 때까지 RAID로 실행합니다. 하드 드라이브의 SMART 상태를 확인하는 것이 내 작업 라인에서 유용하다는 것을 알게되었습니다. 30 초 정도 걸립니다. 내가 스캔 오류나 재 할당 된 섹터와 같은 오류의 힌트를 보여줄만큼 운이 좋지 않은 운이 좋은 경우, 거기에서 드라이브를 꺼내는 것이 좋습니다. 그런 힌트가 없다면, 마침내 하드 드라이브가 나빠질 때까지 느린 속도와 데이터 손상 문제를 해결하는 데 많은 시간을 할애 할 것입니다.

나는이 과정을 미세 조정하려고하고있다.


관리 메뉴에는 (필자가 생각하기에) 디스크 관리 아래에 스마트 기반 정보가 있습니다. 그것은 smartctl에 대한 추가 능력을 가지고 있을지 모르지만, 나는 잠시 동안 그것을 사용하지 않고 그것을 나 앞에서 가지고 있지 않습니다.
Jarvin

@ 단 하이 댄, 당신이 말하는 Windows 도구가 무엇인지 모르겠습니다. 분명히 해줄 수 있니?
James T

SMART의 문제점은 약간의 잘못된 명칭입니다. 거기에는 실제 지능이 없으며 단지 몇 가지 방정식 만이 존재할 것입니다. 그것이 할 수있는 일은 그 자체를 모니터하고 숫자를보고하는 것입니다. 예를 들어 전원 코드가 제대로 연결되지 않은 드라이브를 사용하여 여러 번 켜고 끌 수 있습니다 ( "클릭 사인"소리). 나는 커넥터를 다시 장착 했으므로 이제는 원활하게 작동하지만 임시 (수정 가능) 오류로 인해 한 번에 SMART에 영구적으로 RRER 이벤트가 기록되어 실패한 것처럼 보입니다.
Synetech

답변:


14

당신이 볼 수 있듯이, 다른 제조사들이 때로는 근본적으로 다른 것들을 위해 SMART 값을 사용하는 것처럼 보입니다. 이리 :

ReadyNAS의 내 하드 디스크가 높은 SMART 원시 읽기 오류율, 탐색 오류율 및 하드웨어 ECC 복구를보고합니다. 어떻게해야합니까?

Seagate는 이러한 SMART 필드를 내부 카운트에 사용하므로 Seagate 디스크의 알려진 문제입니다. 다른 분야의 비정상적인 수치, 특히 Reallocated Sector Ct 및 ATA Error Count를 찾으십시오.

그래서 당신의 실제 질문에 관해서 ...

스캔 오류나 재 할당 된 섹터와 같은 오류의 힌트를 표시하기 위해 불량 드라이브에 대해 충분히 운이 좋다면, 거기에서 드라이브를 꺼내는 것이 좋습니다. 그런 힌트가 없다면, 마침내 하드 드라이브가 나빠질 때까지 느린 속도와 데이터 손상 문제를 해결하는 데 많은 시간을 할애 할 것입니다.

엄지 손가락의 좋은 법칙은 똑같은 드라이브 제조업체 내에서 똑같은 SMART 설정을 기대할 수 있으며, 심지어는 같은 드라이브 모델 일 수도 있습니다!

따라서 스마트 카운트를 진단 할 때 명심하십시오 ... 한 제조사의 "read error retry count"는 다른 제조업체의 것과는 완전히 다른 것을 의미 할 수 있습니다. 슬프지만 사실이야. :(


14

좋아요, 우선 당신의 전제에 동의하지 않습니다.

Google은   특정 원시 데이터 속성은   하드 드라이브의 S.M.A.R.T 상태   보고서에는 강한 상관 관계가있을 수 있습니다.   미래의 운전 실패.

사실 그들은 그 반대를 발견했다.

... 우리는 실패 예측 모델을 찾는다.   SMART 매개 변수만으로   심하게 제한 될 가능성이있다.   예측 정확도.   고장난 드라이브의 대부분   SMART 오류 신호가 표시되지 않았습니다.   도대체 무엇이.

둘째, SMART 임계 값은 아니 표준화. 드라이브 자체의 펌웨어는 속성을 "사전 실패"로 표시하지만 원시 값은 사용자에게 의미가 없습니다. 예를 들어, 씨게이트 (Seagate) :

다양한 속성이 모니터링되고 있습니다.   특정 문턱 값에 대해 측정   제한. 하나 이상의 속성이   임계 값 다음 일반 SMART 상태   테스트가 통과에서 실패로 바뀝니다.

읽을 수있는 SMART 값   타사 SMART 소프트웨어로   값이 어떻게 될지에 근거하지 않는다.   Seagate 하드 드라이브 내에서 사용됩니다.   Seagate는 지원을 제공하지 않습니다.   읽을 것을 요구하는 소프트웨어 프로그램   개별 SMART 속성 및   임계 값. 일부가있을 수 있습니다.   이전의 역사적 정확성   드라이브지만 새로운 드라이브는 의심의 여지없이   더 새로운 해결책을 통합하고,   속성 및 임계 값.

tl; dr 요약 :

원시 SMART 값은 거의 의미가 없습니다. 다른 제조사가 다른 방식으로 사용하고 다른 임계 값 등을 가지고 있기 때문에 드라이브 펌웨어 자체가 "사전 실패"상태에있을 때 알려줍니다. SMART는 그렇지 않습니다. 매우 신뢰할 수 있습니다.

정기 백업을 수행하십시오!


귀하의 의견을 바탕으로 내 전체 게시물을 읽지 않는 것 같습니다. 이것이 배경 정보와 따옴표를 모두 넣은 이유입니다. 당신은 Google을 인용했지만 그 중 일부만 선택했습니다. 견적 바로 앞의 부분을 읽으면 ... 일부 속성은 재 할당 된 섹터 수와 같이 강한 실패 상관 관계가 있다고합니다. 제조업체는 한 드라이브를 재 할당 한 후 드라이브가 사전 실패 상태에 있다고보고하지 않습니다. 이것은 원시 데이터를보고 드라이브의 상태를보다 잘 표시 할 수 있음을 명확하게 나타냅니다.
James T

또한 씨게이트 드라이브가 내 데이터를 손상시키고 원시 데이터 값이 건강한 드라이브로 학습 한 것과 크게 다르다는 점을 추가하고 싶습니다. 제조업체가 임계 값을 설정하는 곳에서 분명히 잘못된 점이 있습니다.
James T

내 게시물과 링크를 다시 읽어야한다고 생각합니다. 원시 SMART 값은 다음과 같습니다. 아니 신뢰할 수있는 지표 아무것도 . Google 보고서는 "일부 속성에는 강력한 실패 상관 관계가 있음"이라고 말하지 않습니다. "첫 스캔 오류가 발생한 후에도 드라이브는 60 일 이내에 39 일 이상 오류가없는 드라이브보다 오류가 발생할 확률이 높습니다"라는 사실에도 불구하고 실패한 드라이브 인구의 15 % 미만이 어떤 스캔 오류. 시간의 15 %가 맞으면 믿을만한 지표입니까?
sml

1
@scottl 어디에서 15 %를 얻었는지 잘 모르겠습니다. 이 기사에서 나는 그것을 보지 못했습니다. 드라이브의 15 %만이 스캔 오류가 있다고하더라도 ... 스캔 오류가있는 드라이브는 60 일 동안 39 회 이상 실패 할 가능성이 있습니다. 그렇다고해서 스캔 오류가 발생하지 않는 한 드라이브가 고장 나는 것은 아닙니다. 이것은 단지 스캔 오류가 발생하면 하드 드라이브 잔여 수명이 거의 없음을 의미합니다. 통계를 찍은 적이 있습니까? 나는 그것이 매우 유용하다는 것을 알았다.
James T

1
smartmontools FAQ 메시지 : 원시 SMART 특성 (온도, 전원 켜기 수명 등)은 공급 업체별 구조로 저장됩니다. 언젠가 이것들은 이상합니다. Hitachi 디스크 (적어도 일부)는 몇 시간이 아닌 몇 분 안에 전원 켜기 수명을 저장합니다 (다음 질문 참조). IBM 디스크 (적어도 일부)는 원시 구조에 3 개의 온도를 저장합니다. 등등.
sml

4

나는 네가 묻고있는 것이 정확히 무엇인지 확신 할 수 없다. 당신은 전체 질의 응답을 하나에 굴려 넣은 것 같지만 ...

하드 드라이브 측정 항목을에서 제공된 측정 항목과 비교 했습니까? SeaTools

Seagate의 표준 하드웨어 진단 도구이며 AFAIK는 가장 일반적으로 사용되는 HDD 진단 도구입니다.

이 도구가 경쟁 업체에 대해 좋지 않은 결과를보고하는 경우 놀라지 마십시오. 이 도구는 일반적으로 모든 제조사의 HDD와 작동하지만, 그렇다고해서 경쟁 업체가 좋아 보이게 만드는 것은 아닙니다.

혹시 농담을 듣지 않으셨습니까? "99.99 %의 모든 통계는 물론,이 통계를 제외하고는 사실입니다."


1
그래 ... 조금 혼란 스럽네. 나는 기본적으로 내가 알고있는 모든 배경 정보와 질문 후 모든 나의 시험과 추측을 넣는다. 여기에 내 질문은 "어떻게이 데이터를 정상화합니까?"입니다. 기본적으로 한 제조업체의 모든 데이터 속성을 다른 제조업체의 데이터 속성과 동일한 의미로 만드는 방법은 무엇인지 정확하게 비교할 수 있습니다.
James T

@James 가능한 한 많은 차이에서 데이터를 수집하고 각 데이터를 다른 방식으로 해석 할 때 각각의 차이점을 파악할 수 있습니다. 그들은 모두 정확한 데이터를보고 할 수도 있고, 당신이 지적한 것처럼 다른 방식으로 해석 할 수도 있습니다. 그것이 통계 인용문을 추가 한 이유입니다 ... 데이터가 좋기 때문에 해석이 의미하는 것은 아닙니다.
Evan Plaice

2
네, 그게 내가 한 짓이에요. 나는 70 가지 이상의 하드 드라이브를 살펴 보았습니다. 찾기 오류와 읽기 오류의 큰 차이는 저에게 넘쳐나는 속성입니다. Seagate 드라이브의 경우 읽기 오류는 하드웨어 ecc와의 일종의 관계가 있다고 추측합니다. 나는 그 관계가 무엇인지 정확하게 모르겠습니다. 여기 누군가가 저에게 말할 수 있기를 바랬습니다. 서가 디지털이 항상 0 인 것처럼 보이지만 seagate 드라이브의 오류 수가 큰 이유를 누군가가 알 수 있기를 바랍니다.
James T

@ 제임스 아마 누군가가 더 좋은 대답을 찾을 것입니다. 제 생각에 웨스턴 디지털은 아마도 S.M.A.R.T와 정확히 일치하지 않을 것입니다. 이것이 하드웨어 표준의 문제점이며, 훌륭한 판매 포인트이지만 항상 전체 사양을 따르지 않고 모든 이점을 판매 할 몇 가지 제조업체가 있습니다.
Evan Plaice

네, 표준에서 벗어난 것은 제가 생각한 것과 위키피디아 기사에서 제안한 것입니다. 나는 그들이 두 제조업체 (그리고 아마도 다른 회사들)를 적절히 비교할 수 있도록 그들이 어떻게 다른지 알고 싶습니다. 에반 감사합니다. 바라기를 이것은 다른 사람을위한 질문을 역시 명백하게한다.
James T

2

하드 드라이브 내부의 물리적 현실에서 100MB를 초과하는 모든 브랜드의 하드 드라이브에는 많은 물리적 읽기 오류가 발생합니다. 그 중 대부분은 ECC에 의해 안전하게 수정되고, 일부는 (잘하면 극소수) ECC에 의해 잘못 수정되고, 나머지는 잘못된 교정으로 컴퓨터에 다시보고되고 드라이브가 자동으로 불량 섹터.

원시 읽기 오류를 수정하는 것 외에도 ECC는 하드웨어가 OK라고 생각하는 읽기를 수정하지만 반환 된 비트는 약간 잘못되었습니다. 따라서 수정 된 ECC는 "원시 읽기에 실패했지만 ECC + Raw 읽기에 의해 수정되었지만 ECC에 의해 잘못 수정되었습니다."일 수 있습니다.

따라서 데이터에 대한 두 가지 해석이 가능해 보입니다.

A. 비 Seagate 드라이브에는 ECC 수정 된 읽기 오류가 원시 읽기 오류 수에 포함되지 않으며 수정할 수없는 오류 만 포함됩니다.

B. Seagate는 저레벨 회로가 통지를하지 않더라도 ECC가 데이터를 잘못 찾으면 읽기 오류로 간주합니다. 그렇지 않은 경우도 있습니다.

정상화는 어떤 이론 (A 또는 B)이 옳은지에 따라 매우 다를 것입니다.


& gt; 드라이브가 자동으로 불량 섹터를 재배치하도록해야합니다. 그렇다면 수정할 수없는 섹터 수 이벤트 카운트 재 할당 현재 보류중인 섹터 수 전지? 그것은 증가하지 않을까요? 흐름 , 그 다음에 재배치 된 또는 언 콜렉터 블 ? 왜 그것은 수정할 수 없습니까? 만약 그것이 불량 섹터를 재 매핑하려했으나 실패했다면 (즉, 예비 섹터가 좋지 않은 경우), 다른 예비 섹터로 재 매핑을 시도해서는 안됩니까? 하나의 여유 만있는 타이어가 아닙니다.
Synetech

100 MB? 100GB를 의미합니까?
Peter Mortensen
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.