내 하드 드라이브가 고장입니까?


41

방금 hdd에서 테스트를 시도했지만 자체 테스트를 완료하고 싶지 않습니다. 결과는 다음과 같습니다.

smartctl --attributes --log=selftest /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-32-generic] (local build)

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       697
  3 Spin_Up_Time            0x0027   206   160   021    Pre-fail  Always       -       691
  4 Start_Stop_Count        0x0032   074   074   000    Old_age   Always       -       26734
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       28
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       7432
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   097   097   000    Old_age   Always       -       3186
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       20473
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       84
193 Load_Cycle_Count        0x0032   051   051   000    Old_age   Always       -       447630
194 Temperature_Celsius     0x0022   113   099   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       16
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%      7432         92290592
# 2  Conveyance offline  Completed: read failure       90%      7432         92290596
# 3  Conveyance offline  Completed: read failure       90%      7432         92290592
# 4  Short offline       Completed: read failure       90%      7431         92290596
# 5  Extended offline    Completed: read failure       90%      7431         92290592

이 디스크가 고장 났습니까?


그래픽 도구를 사용할 때 자체 테스트 실패
Michel

3
반복되는 read failure메시지는 일반적으로 디스크 고장을 나타냅니다. 예
HBruijn

23
Michel, SF에 오신 것을 환영합니다. 좋은 첫 질문에 감사드립니다. 당신이이 부분들 주위에 머물기로 결정했는지 알 수 있듯이 (나는 당신이 원하기를 바랍니다) 좋은 첫 질문은 드물고 소중한 것입니다. 사이트에 적절한 가설이 있었으며 ( "내 HDD가 실패합니다 ") 관련 도구를 찾아서 사용 방법을 배웠지 만 결과를 해석하는 데 도움이 필요했습니다. 그래서 당신은 여기에 와서 모든 관련 정보를 주었고 잉여 쓰레기는 없었으며 결정의 모델 인 질문을했습니다. 감사합니다.
MadHatter는 Monica

3
+1 : 훌륭한 첫 질문입니다. 서버 결함을 최대한 활용하려면 계정을 등록하고 Stack Exchange 네트워크 의 다른 사이트를 확인하십시오 . 보다 양질의 콘텐츠를 Stack Exchange에 제공 할 수 있기를 바랍니다.
bwDraco

답변:


43

당신의 운전은자가 진단을하는 것을 매우 기쁘게 생각합니다. 요약하면 지난 1 시간 동안 5 개 이상을 수행했습니다. 그리고 모두 테스트 초기에 읽기 오류로 실패했습니다.

예,이 하드 드라이브는 고장입니다. 유명한 Google 실험실 보고서에 따르면 (현재 링크를 손에 넣을 수는 없지만) smartctl드라이브가 고장 났다고 말하면 아마도 (I)입니다.

편집 : 저장하지 마십시오. 모든 데이터를 가져 와서 교체하십시오.


9
실패하면 실패합니다. 수리는 기술적으로 가능할 수 있지만 새 드라이브 비용과 비교하여 비용 대비 효과가 거의 없을 것입니다.
Sobrique

7
자체 검사 오류의 @Michel의 부재는 드라이브가 증거되지 되지 슬프게도, 실패하지만, 자체 테스트 오류의 존재는 항상 있다고 생각 증명해야 한다 실패.
Rob Moir

1
@Michel : 케이블을 교체 할 수 있습니다. 때때로 드라이브의 문제로 인한 것이 아니라 전원 또는 데이터 케이블의 불량으로 인해 드라이브가 고장날 수 있습니다.
Thomas Padron-McCarthy

1
@ JoorgeNerín : 나는 당신이 훌륭한 지적을한다고 생각하지만, 증거는 나와 OP가 이미 그것을 이해한다는 것입니다. OP는 지난 2 시간 동안 적어도 5 개를 시작했기 때문에 OP이어야합니다. 테스트의 경우, 긴 테스트는 드라이브가 정상임을 나타내는 더 나은 지표 일 것입니다. 그러나 드라이브의 첫 10 %에서 짧은 테스트와 운반 테스트에 모두 실패하면 드라이브가 정상이라고 결론 내릴 수 있다고 생각합니다 샷. 더 광범위한 테스트를 통해 무엇을 밝히기를 희망하십니까?
MadHatter는 Monica

2
@ JorgeNerín <grin> 말이 맞습니다! "영업은 자신의 드라이브를 anthropomorphising 것에 의해 시작하기 때문에 나는 단지 그렇게 말했다 난 그냥 내 하드 디스크에서 테스트를 실행하는 시도 가 완료 될 때까지 원하지 않는 자체 테스트를 ." 나는 우리 중 어느 누구도 드라이브가 살아 있다고 생각하지도 않고 자체 테스트를 스스로 예약한다고 생각하지 않습니다!
MadHatter는 Monica

10

질문에 대답하기 위해 SMART 테스트 실패는 임박한 드라이브 오류를 확실하게 나타냅니다. 잠재적 인 데이터 손실을 방지하려면 가능한 빨리 데이터를 백업하고 드라이브를 교체해야합니다.

@ sj0h는 447,630에서 매우 높은로드 사이클 수를 언급했습니다. (대부분의 최신 하드 드라이브는 600,000 번의로드 / 언로드주기를 견딜 수 있도록 설계되었습니다.) 이는 일반적으로 APM (Advanced Power Management) 기능으로 인해 발생합니다.이 기능은 몇 초 후 게으른. 필요할 때 헤드가 플래터에 다시 장착됩니다. 하드 드라이브가 간헐적 인 온 / 오프 활동을하는 대부분의 시스템에서 이로 인해 많은로드 / 언로드주기가 발생할 수 있습니다. APM을 끄려면 루트 프롬프트에서 다음 명령을 실행하십시오.

smartctl -s apm,off /dev/sda

이 명령은 시스템 전원을 껐다 켜거나 절전 모드로 전환하거나 드라이브 전원을 끌 때마다 실행해야합니다.이 설정은 드라이브를 끌 때 유지되지 않기 때문입니다.

내 경험상 이렇게하면로드 / 언로드주기 수가 대폭 줄어들고 결과적으로 나중에 이런 종류의 장애가 다시 발생할 가능성이 줄어 듭니다. 그러나 이렇게하면 전력 소비와 드라이브 온도가 증가합니다. 드라이브가 50 ° C를 초과하는 온도에서 지속적으로 작동하는 경우 조기 고장의 위험이 높아 지므로 더 따뜻한 달에는 APM을 켜두거나 끄면 켜야 할 수 있습니다.


2

읽기 오류 외에도로드 사이클 수도 고려하십시오. 거의 500,000에서 이것은 고장의 원인 또는 적어도 높은로드 사이클 마모를 나타낼 수 있습니다. 전원을 켤 때마다 1 분마다로드주기가 있습니다. 드라이브를 교체 한 후 새 드라이브에서도이 작업을 수행하고 있지 않은지 확인하십시오.


아주 좋은 관찰. 드라이브가 1 분마다 회전하고 고장 나는 이유를 어떻게 진단 할 수 있습니까?
dotancohen

@dotancohen, 내 답변보기 —APM이 책임을 져야합니다.
bwDraco

2

예, 읽을 수없는 16 개의 섹터가 있습니다. 드라이브의 거의 같은 영역에서 모두 실패한 몇 가지 테스트를 수행하려고했기 때문에 백업 속도는 빠르지 만 지금은 근처에 머무르면 데이터에 액세스 할 수 없습니다. 섹터 92290592, 92290596.

다른 문제가있는 영역이있을 수 있지만 16 개 섹터가 연속적이거나 확산되어 있는지 알 수 없으며 백업 후 재생하려면 -t select, startlba-endlba를 사용하여 선택적 자체 테스트를 수행 할 수 있습니다.

Current_Pending_Sector는 하드 디스크 펌웨어가 읽기를 시도했지만 실패 할 때까지 실패한 후이를 Offline_Uncorrectable로 표시하거나 다른 예비 섹터로 손상된 섹터를 대체 할 때까지 (OS가 요청할 때마다) 하드 디스크 펌웨어를 읽었 음을 의미합니다. OS가 그것에 기록합니다 (따라서 Reallocated_Sector_Ct가 증가합니다).


1

나는 개인적으로 드라이브를 교체 할 것입니다. 어떤 이유로 아직 그렇게하고 싶지는 않지만 드라이브에 아직 머물러 있으면 실수로 새 파일에 잘못된 영역을 사용하지 않는 방법이 필요합니다.

나는 비디오를 기록하는 오래된 Mac에서 그런 드라이브를 가지고 있었고 비디오가 좋기 때문에 아직 변경하고 싶지 않다고 결정했습니다. 따라서 오류를 격리해야했습니다. 먼저 나쁜 파일에 대해서만 빈 폴더를 만든 다음 디스크에있는 기존 파일을 모두 읽으려고했고 오류가있는 파일은 bad-files-directory로 옮겨졌습니다 (중요하지 않은 것).

그런 다음 하드 드라이브를 채우기 위해 고유 한 이름의 1MB 파일을 많이 만들었습니다 (따라서 모든 빈 공간은 이제이 1MB 파일 중 하나였습니다). 오류가있는 모든 파일이 불량 파일 디렉토리로 이동되었으며 남은 파일이 양호하여 불량 공간을 되찾기 위해 삭제 될 수 있습니다.

이제 드라이브를 조금 더 오래 사용할 수 있지만 중요한 용도로는 사용하지 마십시오. 그것은 보다 실패가 발생했을 때 그것은 가장 가능성이 불편할 수 있습니다.


1

이것은 좋은 신호가 아닙니다. 디스크의 내용을 백업하고 디스크를 중요한 용도로 사용하지 않아야합니다.

그러나 섹터를 재 할당하고 수년 동안 작동 상태를 유지하는 데 실패한 섹터가있는 디스크를 보았으므로 중요하지 않은 항목이나 추가 백업과 같이 잠시 동안 유지할 수 있습니다.

한 가지해야 할 일은 읽을 수없는 섹터에 의해 어떤 파일이 손상되었는지 확인하고 디스크에 의해 재 할당을 강제하기 위해이 섹터에 기록하는 것입니다 ( "Current_Pending_Sector"에서 "Reallocated_Sector_Ct"로 이동). Linux를 사용하는 경우 http://smartmontools.sourceforge.net/badblockhowto.html을 참조 하십시오 . 섹터가 재 할당되면 자체 테스트는 더 읽을 수없는 섹터를 통과하거나보고해야합니다.

나는 불량 섹터가 반드시 임박한 실패를 나타내는 것이라고 생각하지 않는다는 점에서 대부분의 답변에 동의하지 않습니다 . 으로 http://blog.mmueh.net/index.php/2010/12/09/luks-meets-badblocks/는 말한다, "모든 하드 드라이브 시작은 인생의 어느 시점에서 불량 섹터를 생성하는 방법"을 참조하십시오.


불량 섹터가 발생할 경우 고장이 확실하지 않다는 데 동의하지만, 불량 섹터 하나가 크게 증가한 후 운전자가 고장날 가능성은 높습니다 (Google 보고서에도 있다고 생각하지만 현재 실제 소스를 찾을 수는 없습니다)
Dennis Nolte
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.