우선, 나는 하드 드라이브가 제조사가 원하는 것보다 더 많이 실패한다는 것을 모든 사람들이 알고 있다고 생각한다. 들이다 . Google은 연구 하드 드라이브의 S.M.A.R.T 상태가보고하는 특정 원시 데이터 속성이 드라이브의 미래 장애와 강한 상관 관계를 가질 수 있음을 나타냅니다.
예를 들어 첫 스캔 오류가 발생한 후 드라이브는 오류가없는 드라이브보다 60 일 이내에 39 회 이상 오류가 발생할 가능성이 높습니다. 재 할당, 오프라인 재 할당 및 시험 적 횟수의 첫 번째 오류는 또한 높은 실패 확률과 밀접한 상관 관계가 있습니다. 이러한 강력한 상관 관계에도 불구하고 SMART 매개 변수만을 기반으로 한 실패 예측 모델은 SMART 오류 신호가 전혀 표시되지 않은 실패한 드라이브의 상당 부분을 감안할 때 예상 정확도가 심각하게 제한 될 수 있습니다.
Seagate는 드라이브에 관한이 정보를 모호하게하려는 것처럼 보입니다. 청구하다 그들의 소프트웨어 만이 드라이브의 정확한 상태를 정확하게 결정할 수 있으며 소프트웨어가 S.M.A.R.T 속성의 원시 데이터 값을 알려주지 못하게합니다. Western Digital은 본인의 지식에 대해 그러한 주장을하지 않았지만 상태보고 도구는 원시 데이터 값을보고하지 않습니다.
각 속성의 원시 데이터 값을 수집하기 위해 smartmontools의 HDtune 및 smartctl을 사용했습니다. 나는 그것을 실제로 발견했습니다 ... 사과와 오렌지를 비교할 때 어떤 속성에 관해서는 말입니다. 예를 들어 대부분의 Seagate 드라이브는 수백만 개의 읽기 오류를보고하며 서부 디지털 99 %는 읽기 오류 0을 표시합니다. Western Digital은 항상 0을보고하는 것처럼 보이지만 Seagate는 수 많은 오류를보고합니다.
큐 :이 데이터를 정규화하려면 어떻게합니까? Western Digital이 아무 것도 생산하지 않는 동안 Seagate는 수백만 개의 오류를 생성합니까? Wikipedia의 기사 똑똑한 상태는 제조업체가이 데이터를보고하는 다양한 방법을 가지고 있다고 말합니다.
나의 가설은 다음과 같다.
데이터를 정규화하는 방법을 찾았다 고 생각합니다.
Seagate 드라이브에는 Western Digital 드라이브에없는 추가 속성이 있습니다 (Hardware ECC Recovered). ECC Recovered 카운트에서 읽기 오류 카운트를 빼면 아마 0으로 끝날 것입니다. 이것은 Western Digitals가 "Read Error"카운트를보고 한 것과 같습니다. 즉 Western Digital은 Seagate가 모든 읽기 오류를 계산하는 동안 수정할 수없는 읽기 오류 만보고하고 해결할 수 있었던 오류 수를 알려줍니다.
읽기 오류 횟수가 ECC 복구 횟수보다 적은 Seagate 드라이브가 있었고 많은 파일이 손상된 것으로 나타났습니다. 이것은 내가 어떻게 내 가설을 생각해 냈는지입니다. Seagate가 생산하는 수백만 건의 검색 오류는 여전히 나에게 수수께끼입니다.
추가 정보가있는 경우 가설을 확인하거나 수정하십시오.
여기 내 서부 디지털 드라이브의 현명한 상태가 있습니다. 그래서 내가 말하는 것을 볼 수 있습니다.
james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF INFORMATION SECTION ===
Device Model: WDC WD1001FALS-00E3A0
Serial Number: WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity: 1,000,204,886,016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 179 175 021 Pre-fail Always - 4033
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 270
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 1468
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 262
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 46
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 223
194 Temperature_Celsius 0x0022 105 102 000 Old_age Always - 42
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
편집 : 여기 데이터 손상을 일으키는 Seagate 드라이브가 있습니다. 이 데이터는 HDTune에서 가져온 것입니다.
HD Tune: ST3250623A Health
ID Current Worst ThresholdData Status
(01) Raw Read Error Rate 45 38 6 77882492 Ok
(03) Spin Up Time 99 98 0 0 Ok
(04) Start/Stop Count 100 100 20 640 Ok
(05) Reallocated Sector Count 100 100 36 0 Ok
(07) Seek Error Rate 85 60 30 359872048 Ok
(09) Power On Hours Count 94 94 0 6028 Ok
(0A) Spin Retry Count 100 100 97 0 Ok
(0C) Power Cycle Count 100 100 20 689 Ok
(C2) Temperature 25 55 0 25 Ok
(C3) Hardware ECC Recovered 50 47 0 201555081 Ok
(C5) Current Pending Sector 100 100 0 0 Ok
(C6) Offline Uncorrectable 100 100 0 0 Ok
(C7) Ultra DMA CRC Error Count 200 199 0 1 Ok
(C8) Write Error Rate 100 253 0 0 Ok
(CA) TA Counter Increased 100 253 0 0 Ok
Power On Time : 6028
Health Status : Ok
Hardware ECC Recovered가 Raw Read Error Rate보다 크다는 사실은 제 의견으로는 직관적이지 않습니다.
이것이 ECC 복구가 Raw Read Error Rate와 일치하는 "정상적인"seagate 드라이브 인 것으로 나타났습니다.
HD Tune: ST380011A Health
ID Current Worst ThresholdData Status
(01) Raw Read Error Rate 62 46 6 79986164 Ok
(03) Spin Up Time 98 98 0 0 Ok
(04) Start/Stop Count 100 100 20 6 Ok
(05) Reallocated Sector Count 100 100 36 0 Ok
(07) Seek Error Rate 83 60 30 210309663 Ok
(09) Power On Hours Count 93 93 0 6516 Ok
(0A) Spin Retry Count 100 100 97 0 Ok
(0C) Power Cycle Count 99 99 20 1325 Ok
(C2) Temperature 25 52 0 25 Ok
(C3) Hardware ECC Recovered 62 46 0 79986164 Ok
(C5) Current Pending Sector 100 100 0 0 Ok
(C6) Offline Uncorrectable 100 100 0 0 Ok
(C7) Ultra DMA CRC Error Count 200 188 0 18 Ok
(C8) Write Error Rate 100 253 0 0 Ok
(CA) TA Counter Increased 100 253 0 0 Ok
Power On Time : 6516
Health Status : Ok
편집하다:
나는 구글이 일반적으로 S.M.A.R.T가 쓸모 없다고 생각한다는 것을 분명히하고 싶다. 모든 사람들이 데이터를 백업해야한다는 것을 알고 있습니다. 그러나 나는 다른 사람들의 컴퓨터를 고치는 사업에 종사하고있다. 대부분의 사람들은 백업이 없거나 RAID를 가지고 있습니다. 기업이 하드 드라이브 문제를 해결하는 것은 비용 효율적이지 않으므로 죽을 때까지 RAID로 실행합니다. 하드 드라이브의 SMART 상태를 확인하는 것이 내 작업 라인에서 유용하다는 것을 알게되었습니다. 30 초 정도 걸립니다. 내가 스캔 오류나 재 할당 된 섹터와 같은 오류의 힌트를 보여줄만큼 운이 좋지 않은 운이 좋은 경우, 거기에서 드라이브를 꺼내는 것이 좋습니다. 그런 힌트가 없다면, 마침내 하드 드라이브가 나빠질 때까지 느린 속도와 데이터 손상 문제를 해결하는 데 많은 시간을 할애 할 것입니다.
나는이 과정을 미세 조정하려고하고있다.