SMART 속성을 통해 드라이브가 안정적인지 진단

하드 드라이브가 죽어 있는지 확인하려고합니다. 나는 똑똑한 가치를 연구했으며 그것이있을 것 같지만 여전히 데이터를 잘 읽고 쓰고 새로운 오류는 나타나지 않습니다.

이전에는 197 Current_Pending_Sector8 의 값이 있었지만 드라이브를 제로화 한 후에는 값이 0으로 되돌아 갔고 196 Reallocated_Event_Count는 0입니다.

이는 드라이브 자체에 문제가없고 일시적인 시스템 문제라는 것을 의미합니까?

또한 188 Command_Timeout1의 값을 갖는 문제 는 다음과 같이 정의됩니다.

HDD 시간 초과로 인해 중단 된 작업 수입니다. 일반적으로이 속성 값은 0과 같아야하며 값이 0보다 훨씬 높으면 전원 공급 장치 나 산화 된 데이터 케이블에 심각한 문제가있을 수 있습니다.

저수준 프로그래밍을 해왔으며 컴퓨터를 약 50 회 정도 강제 종료해야했습니다.

나는 191 G-Sense_Error_Rate438 의 가치가 좋다고 가정하고 있습니다. 하드 드라이브가 켜져있는 동안 랩톱을 옮기는 것입니다.

정말 재미있는 점은 내 Windows 파티션의 부팅이 중지되어 다른 창이나 Linux 시스템에 마운트 할 수 없지만 OSX에 제대로 마운트되어 파일을 복구 할 수 있다는 것입니다. 이후 다시 설치하고 데이터를 복사했는데 완벽하게 작동하는 것 같습니다. OSX가 다른 드라이브에 있습니다.

H2O:~ jeremiah$ smartctl -a /dev/disk1
smartctl 6.3 2014-07-26 r3976 [x86_64-apple-darwin14.1.0] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     HGST HTS541075A9E680
Serial Number:    JD13021X0A00GK
LU WWN Device Id: 5 000cca 764c48bc4
Firmware Version: JA2OA590
User Capacity:    750,156,374,016 bytes [750 GB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Form Factor:      2.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-2, ATA8-ACS T13/1699-D revision 6
SATA Version is:  SATA 3.0, 3.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Wed Mar 11 21:59:30 2015 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:        (   45) seconds.
Offline data collection
capabilities:            (0x51) SMART execute Offline immediate.
                    No Auto Offline data collection support.
                    Suspend Offline collection upon new
                    command.
                    No Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   2) minutes.
Extended self-test routine
recommended polling time:    ( 164) minutes.
SCT capabilities:          (0x003d) SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   086   062    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0025   100   100   040    Pre-fail  Offline      -       0
  3 Spin_Up_Time            0x0023   169   100   033    Pre-fail  Always       -       1
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       981
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002f   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   040    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   095   095   000    Old_age   Always       -       2586
 10 Spin_Retry_Count        0x0033   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       851
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   097    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   001   000    Old_age   Always       -       144929376764360
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       1
190 Airflow_Temperature_Cel 0x0022   069   050   045    Old_age   Always       -       31 (Min/Max 24/31)
191 G-Sense_Error_Rate      0x0032   099   099   000    Old_age   Always       -       438
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       2031647
193 Load_Cycle_Count        0x0032   089   089   000    Old_age   Always       -       115337
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0036   100   100   000    Old_age   Always       -       0
223 Load_Retry_Count        0x002a   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 456 (device log contains only the most recent five errors)
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 456 occurred at disk power-on lifetime: 2549 hours (106 days + 5 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 08 38 8d 62 00  Error: UNC 8 sectors at LBA = 0x00628d38 = 6458680

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 08 38 8d 62 40 00      00:00:34.282  READ DMA EXT
  25 00 08 38 8d 62 40 00      00:00:30.471  READ DMA EXT
  25 00 08 38 8d 62 40 00      00:00:26.660  READ DMA EXT
  25 00 08 38 8d 62 40 00      00:00:22.849  READ DMA EXT
  2f 00 01 10 00 00 00 00      00:00:22.849  READ LOG EXT

Error 455 occurred at disk power-on lifetime: 2549 hours (106 days + 5 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 08 38 8d 62 00  Error: UNC 8 sectors at LBA = 0x00628d38 = 6458680

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 08 38 8d 62 40 00      00:00:30.471  READ DMA EXT
  25 00 08 38 8d 62 40 00      00:00:26.660  READ DMA EXT
  25 00 08 38 8d 62 40 00      00:00:22.849  READ DMA EXT
  2f 00 01 10 00 00 00 00      00:00:22.849  READ LOG EXT
  60 08 a8 38 8d 62 40 00      00:00:19.060  READ FPDMA QUEUED

Error 454 occurred at disk power-on lifetime: 2549 hours (106 days + 5 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 08 38 8d 62 00  Error: UNC 8 sectors at LBA = 0x00628d38 = 6458680

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 08 38 8d 62 40 00      00:00:26.660  READ DMA EXT
  25 00 08 38 8d 62 40 00      00:00:22.849  READ DMA EXT
  2f 00 01 10 00 00 00 00      00:00:22.849  READ LOG EXT
  60 08 a8 38 8d 62 40 00      00:00:19.060  READ FPDMA QUEUED
  60 08 a0 30 8d 62 40 00      00:00:19.059  READ FPDMA QUEUED

Error 453 occurred at disk power-on lifetime: 2549 hours (106 days + 5 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 08 38 8d 62 00  Error: UNC 8 sectors at LBA = 0x00628d38 = 6458680

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 08 38 8d 62 40 00      00:00:22.849  READ DMA EXT
  2f 00 01 10 00 00 00 00      00:00:22.849  READ LOG EXT
  60 08 a8 38 8d 62 40 00      00:00:19.060  READ FPDMA QUEUED
  60 08 a0 30 8d 62 40 00      00:00:19.059  READ FPDMA QUEUED
  60 08 98 28 8d 62 40 00      00:00:19.059  READ FPDMA QUEUED

Error 452 occurred at disk power-on lifetime: 2548 hours (106 days + 4 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 41 08 38 8d 62 00  Error: UNC at LBA = 0x00628d38 = 6458680

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 08 a8 38 8d 62 40 00      00:00:19.060  READ FPDMA QUEUED
  60 08 a0 30 8d 62 40 00      00:00:19.059  READ FPDMA QUEUED
  60 08 98 28 8d 62 40 00      00:00:19.059  READ FPDMA QUEUED
  60 08 90 20 8d 62 40 00      00:00:19.059  READ FPDMA QUEUED
  60 08 88 18 8d 62 40 00      00:00:19.059  READ FPDMA QUEUED

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

hard-drive smart

— 예레미야
소스

짧고 확장 된 자체 테스트를 실행해야합니다. 많은 ID # 187 Reported_Uncorrect오류는 문제를 나타냅니다. 40 시간 전쯤에 부정확 한 읽기 오류가 있었던 것 같습니다.

— 톱밥 6

197 Current_Pending_Sector 값은 8 이었지만 드라이브를 0으로 설정 한 후 값을 0으로 되돌리고 196 Reallocated_Event_Count는 0입니다.

이것은 어느 시점에서 드라이브가 일부 섹터를 읽는 데 문제가 있었지만 드라이브를 제로화 한 이후에는 아무런 문제가 없었 음을 의미합니다. 새로운 데이터로 전체 드라이브를 덮어 쓰면 섹터가 재 할당 보류에서 정상으로 바뀌 었으며 해당 시점에서 섹터가 재 할당되지 않았기 때문에 드라이브가 쓰기에 만족했을 것입니다. 긴 SMART 자체 테스트 (일반적으로 표면 스캔 포함)를 실행하여 확인해야하지만 드라이브 작동 중 컴퓨터 이동과 관련하여 결함이있을 수 있습니다.

또한 값이 1 인 188 Command_Timeout이 중요합니다. 이는 다음과 같이 정의됩니다.

걱정할 가치가 없습니다. 드라이브는 거의 2600 시간의 전원 켜기 시간을보고하며 해당 기간 동안 단일 명령 시간 초과를 보았습니다. 명령 시간 종료는 실패한 명령을 재 시도하거나 I / O 조작에 실패하여 OS에 의해 처리되므로, 이것이 지속적인 문제점 인 경우이를 알고있을 것입니다. 보류중인 8 개 섹터와 관련이 있거나 관련이 없을 수 있습니다.

이것이 눈에 띄게 오르기 시작하면 걱정할 것입니다. 그러나 시스템 작동에 다른 문제의 징후가없는 한 자릿수의 시간 초과가 걱정되지 않습니다.

저수준 프로그래밍을 해왔으며 컴퓨터를 약 50 회 정도 강제 종료해야했습니다.

논리적 데이터 일관성 (파일 시스템 손상 등)에 영향을 줄 수 있지만 걱정할만한 수준의 물리적 드라이브에는 영향을 미치지 않아야합니다.

또한 톱밥 의 의견에서 :

짧고 확장 된 자체 테스트를 실행해야합니다. 많은 수의 ID # 187 Reported_Uncorrect 오류는 문제를 나타냅니다. 40 시간 전쯤에 부정확 한 읽기 오류가 있었던 것 같습니다.

이것은 좋은 지적이지만, 우리는 원시 값의 인코딩을 모른다. 우리가 알 수있는 것은 "값"은 현재 표준화 된 100이며 최악의 보이는 값은 1이고 임계 값 (드라이브가 실패했거나 실패가 임박했음을보고하기 위해)은 0입니다. 즉, 현재 드라이브는이 값이 문제의 원인이라고 느끼지 않습니다. 그리고 1.45e14 읽기 오류 소리는 거의 불가능합니다. 자체 승인으로 드라이브는 약 183,000 개의 섹터 (4 KiB / 섹터에서 750GB)를 갖습니다. 원시 값으로보고 된 읽기 오류 수를 얻으려면 각 단일 섹터마다보고 된 2,586 개의 전원 공급 시간에서 791,000 회 실패했거나 전체 읽기 오류가 한 번 발생했을 것입니다.매 11 초마다 표면. 이것은 (십초에 당신이 할 수있을 거라고 단순히 말도 안되는 숫자 읽기 그래서 우리는 안전이 드라이브에 대해 그 결론과, 확실성의 높은 수준, 187 속성 수, 전체 디스크 표면의 작은 부분을) 원료를 value는 단순한 정수 개수 이외의 것입니다.원시 값은 실제 값을 인코딩하는 상위 또는 하위 비트와 다른 무언가를 인코딩하는 두 부분으로 분할 될 수 있습니다. 해당 속성의 원시 값의 16 진 값은 83D0 0005 01C8이며, 가운데 0의 문자열은 이러한 인코딩을 나타냅니다. 확실히 가능하지만, 임의의 오류 개수가 중간에 긴 문자열을 가지지 않을 것 같습니다. 예를 들어 더 낮은 비트 (501C8 16 진수)를 취하면 328,136 개의 오류가 발생하지만 여전히 많은 소리가 훨씬 더 믿을 수 있습니다.

결론적으로 SMART는 훌륭한 모니터링 도구가 될 수 있지만 모든 문제를 파악하고보고하도록 설계된 것은 아닙니다. 일부 드라이브는 SMART가 완전히 죽어야한다고 표시 한 후에도 행복하게 떨리며, 일부 드라이브는 SMART가 고장난 후에도 모든 것이 훌륭하다고 말하더라도 파국적으로 실패합니다. 드라이브 상태에 대한 절대적인 진실이 아니라 조기 경보 시스템 및 상태 보고서에 대한 SMART 데이터를 가져옵니다 . 또한 인코딩의 구현이 정의되어 있으므로 중요한 값으로 원시 값을 읽어야합니다. 오히려, 보고 된 "값"이 드라이브의 "임계 값"값과 어떻게 비교되는지 살펴보십시오. 이는 제조업체에서 특정 드라이브에 대해 의미있게 정의한 것으로 간주되기 때문입니다.

이전에 보류중인 (기본적으로 "읽기 어려운"것으로 간주되는) 섹터가 걱정되는 경우 SMART를 통해 전체 표면 스캔을 실행하십시오. 그들은 "보류"로 돌아올 경우,이 드라이브를 교체할지 여부를 고려 가치가있을 수도 있지만, 단순한 사실은 거의 모든 드라이브를 개발하는 것입니다 일부 의 수명 시간 동안 불량 섹터를하고 보상하기 위해 예비 섹터 번호를 가지고 불량 섹터를 재 할당함으로써 재 할당에는 데이터를 알고 있어야하므로 섹터가 잘못되면 해당 섹터에 쓰는 동안에 만 재 할당 할 수 있습니다.

— CVn
소스

스마트 데이터는 드라이브를들을 때 가장 좋습니다. 문자 그대로 실패 상태라고 말하면 데이터를 조사하려고 시도하는 것이 때때로 토끼 구멍으로 이동하는 것일 수 있습니다. 또한 모든 것을보고하지는 않으며 드라이브의 특징이 있으며 단순히 추적 할 수 없습니다. 예를 들어 연삭 소음은 기계적 문제이지만 드라이브가 I / O 문제를 감지한다는 의미는 아니지만 연삭 소리는 문제가 모두 동일하지만 (나쁜 예) 지점을 설명하기에 충분하다는 것을 나타냅니다

— Ramhound

@Ramhound 음, SMART가 "모든 문제를 파악하고보고하도록 설계되지 않았습니다"라고 글로 말한 내용이 어느 정도입니까?

— CVn