SMART Hardware_ECC_Recovered 값이 높아야합니까?


16

나는 다음과 같은 메시지를 받았다 /var/log/messages.


Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47

#smartctl -a /dev/sda:


smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   088   006    Pre-fail  Always       -       28526210
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       471723621
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2520
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   068   052   045    Old_age   Always       -       32 (Lifetime Min/Max 31/35)
194 Temperature_Celsius     0x0022   032   048   000    Old_age   Always       -       32 (0 27 0 0)
195 Hardware_ECC_Recovered  0x001a   047   045   000    Old_age   Always       -       105036390
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

디스크에 오류가 발생하여 교체해야한다는 의미입니까? SMART 시험 결과의 해석에 대한 정보는 어디에서 읽을 수 있습니까?

답변:


13

Spinrite 명성 의 Steve Gibson에 따르면 SMART 값은 순간적인 판독 치가 아니라 시간이 지남에 따라 측정되어야합니다. 즉, 값이 47 개월 인 경우 47의 값이 반드시 나쁘지는 않습니다. 그러나 값이 한 시간 전 42 초이고 빠르게 상승하면 드라이브가 데이터의 일부에 액세스하는 데 어려움을 겪고 있으며 곧 섹터를 읽을 수 없을 수도 있습니다. 해당 드라이브의 데이터 값에 따라 교체 할 수 있습니다.


좋은 답변을 얻고 +1하려면 +1하세요. 당신이 정말로 Lexsys에 관심이 있다면, 나는 spinrite의 사본을 사고 그것을 실행할 것이다. CD로 부팅하려면 시스템이 필요하지만 OS는 관련이 없습니다. (부팅 CD를 만들려면 Windows 또는 Windows 복제본이 필요합니다)
Matt

Spinrite는 부팅 가능한 (freedos) .iso 이미지와 함께 제공되며, 현재 운영 체제로 구울 수 있습니다
Dave Cheney

grc.com/sr/spinrite.htm 은 더 나은 링크입니다
Brad Gilbert

2
예가 잘못되었습니다! @CesarB의 답변을 참조하십시오-대부분의 값은 증가하는 것이 좋습니다! 한 시간 전에 42 살이었고 지금은 47 살입니다. 그러나 다른 방법은 아닙니다.
Volker Siegel


4

첫째, 더 낮은 값은 더 높은 값이 아닌 SMART에 대해 더 나쁩니다 (임계 값 열이 항상 현재 값보다 낮은 방법에 유의하십시오). 따라서 가치가 증가한다고해서 걱정할 필요는 없습니다. 그러나이 규칙은 원시 값에는 적용되지 않습니다.

SMART 값은 약간 진동하는 경향이 있습니다 (예를 들어 46에서 47 사이의 가장자리에있을 수 있으므로 작은 변경이라도 다른 값으로 전환 될 수 있음).

smartctl -a출력에이 값이 45라는 최악 의 결과가 표시되므로 약간 위에 오실 레이션하는 것이 정상입니다.

자세한 정보는 Wikipedia : ATA SMART attributes를 참조하십시오 .


3

Google이 수행 한 광범위한 연구조차도 SMART 오류로 많은 드라이브 오류가 예측되지 않았다는 것을 발견했습니다. 당신이 보는 것은 완벽하게 정상일 수 있지만, 각 제조업체는 원시 값을보고 된 값으로 변환하기위한 다른 메트릭을 가지고 있기 때문에 드라이브가 많은 오류를 경험하고 있는지 확실하게 말하기는 어렵습니다. 그러나 큰 숫자는 저에게 홀수입니다.

모든 드라이브를 읽고 (dd 또는 rsync를 새 드라이브로 읽음) SMART 값을 확인하는 것이 좋습니다. 해당 원시 번호 또는보고 된 값이 표시되면 로트를 많이 변경하여 드라이브를 교체하기 시작합니다.


허. ZFS가 자체 사용 패턴과 비교하여 SMART 속성을 추적하게하는 것은 꽤 멋진 일입니다.
i336_

1

아무 문제가 없습니다.

당신은 항상 실행할 수 있습니다

smartctl -t long /dev/yourdrive

그런 다음 몇 시간 후에 결과를 쿼리하십시오.

smartctl -a /dev/yourdrive

확인차.


1

복구 된 IIRC 하드웨어 ECC는 디스크 읽기에서 오류를 수정하는 것으로 디스크에서는 드문 일이 아니며 이러한 이유로 정확하게 오류 수정 메커니즘으로 데이터를 인코딩합니다. 일부 컨트롤러는 디스크 섹터에서 중복 정보를 지원하고 또 다른 오류 수정 계층을 추가합니다.

Dave Cheney에 따르면 시간이 지남에 따라 수치를 모니터링해야합니다. 이러한 통계의 급격한 변화는 드라이브 고장을 나타냅니다. 또한 증가 된 결함 목록을 주시하십시오. 증가 된 결함 목록이 증가하기 시작하거나 SMART 통계가 크게 변경되기 시작하면 예방 적으로 드라이브를 교체해야합니다.


1
lol, 예방 적으로
Dave Cheney
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.