syslog에서 이러한 디스크 오류는 무엇을 의미합니까?


13

방금 모니터링 서버를 처음으로 재부팅했는데 다음과 같이 화면이 채워졌습니다.

Jul 11 23:52:30 monit kernel: [   25.255908] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Jul 11 23:52:30 monit kernel: [   25.256170] ata1.00: BMDMA stat 0x24
Jul 11 23:52:30 monit kernel: [   25.256278] ata1.00: failed command: READ DMA
Jul 11 23:52:30 monit kernel: [   25.256410] ata1.00: cmd c8/00:c0:20:68:35/00:00:00:00:00/e0 tag 0 dma 98304 in
Jul 11 23:52:30 monit kernel: [   25.256416]          res 51/40:9f:41:68:35/00:00:00:00:00/e0 Emask 0x9 (media error)
Jul 11 23:52:30 monit kernel: [   25.256809] ata1.00: status: { DRDY ERR }
Jul 11 23:52:30 monit kernel: [   25.256933] ata1.00: error: { UNC }
Jul 11 23:52:30 monit kernel: [   25.304388] ata1.00: configured for UDMA/66
Jul 11 23:52:30 monit kernel: [   25.304430] ata1: EH complete

. . . 

Jul 11 23:52:30 monit kernel: [   25.552451] sd 0:0:0:0: [sda] Unhandled sense code
Jul 11 23:52:30 monit kernel: [   25.552462] sd 0:0:0:0: [sda]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jul 11 23:52:30 monit kernel: [   25.552475] sd 0:0:0:0: [sda]  Sense Key : Medium Error [current] [descriptor]
Jul 11 23:52:30 monit kernel: [   25.552490] Descriptor sense data with sense descriptors (in hex):
Jul 11 23:52:30 monit kernel: [   25.552498]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 
Jul 11 23:52:30 monit kernel: [   25.552529]         00 35 68 41 
Jul 11 23:52:30 monit kernel: [   25.552543] sd 0:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocate failed
Jul 11 23:52:30 monit kernel: [   25.552559] sd 0:0:0:0: [sda] CDB: Read(10): 28 00 00 35 68 20 00 00 c0 00
Jul 11 23:52:30 monit kernel: [   25.552587] end_request: I/O error, dev sda, sector 3500097
Jul 11 23:52:30 monit kernel: [   25.556607] ata1: EH complete

HDD를 교체해야한다는 것을 이미 알고 있지만 (데이터 비용> HDD 비용) 실제로 본인의 지식으로 HDD에 어떤 문제가 있는지 알고 싶습니다 .

예, 모니터링 서버에는 RAID가없고 HDD 하나만 있습니다 ... 나를 보지 마십시오 ...


3
"예, 모니터링 서버에는 RAID가없고 HDD가 하나뿐입니다 ... 저를 쳐다 보지 마십시오 ..."-백업이 좋은 경우 너무 많이 보지 마십시오.
Janne Pikkarainen

2
좋은 백업이 되셨기를 바랍니다. 아마도 필요할 것입니다. 모니터링 서버가 그렇게 중요한 경우, 하드 드라이브를 최소한 RAID 1로 교체하는 비용은 쉽게 정당화 될 수 있어야합니다.
Michael Hampton

1
RAID가 없어도 모든 디스크의 SMART 데이터를 모니터링해야합니다.
James Youngman

답변:


16
sd 0:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocate failed

드라이브에 불량 섹터가 있고이를 재 할당 할 수없는 것 같습니다 (아마도 예비 섹터가 부족한 것 같습니다). 의 출력은 smartctl -a /dev/sda드라이브 상태에 대한 자세한 정보를 제공합니다.


또한이 오류는 간단한 읽기 (예 : cp파일 시도)에서 발생하는 것을 보았습니다 . 이 경우, 손상된 섹터의 파일 손상은 데이터를 재구성 할 수 없을 정도로 심각하여 "재 할당"실패가 발생하여 데이터를 다른 곳에 저장하려고 시도하기도했습니다.
랜달

12

래시는 "arf! arf arf! arf!"라고 말합니다. 이것은 Timmy 또는 우물 과 관련 이 없기 때문에 바보 입니다. 그렇기 때문에 개에게 시스템 관리자의 조언을 구하지 마십시오.

드라이브는 "복구되지 않은 읽기 오류-자동 재 할당 실패"를 나타냅니다. 이는 기본적으로 "읽으려고했습니다. 실패했습니다. 복구하려고했습니다 (섹터를 몇 번 더 읽고 ECC를 적용하고 데이터를 부서지지 않은 부문), 작동하지 않았다 " 이것은 아마도 디스크가 재 할당 된 섹터로 가득 찬다는 것을 의미합니다. (디스크가 한동안 죽어 가고 있기 때문에) 또한 섹터를 전혀 복구 할 수 없다는 것을 의미합니다 (반복 된 읽기) + ECC는보기 좋은 데이터 블록을 얻지 못했습니다).

어느 쪽이든, 예, 드라이브는 매우 선인장입니다. 귀하의 데이터는 실제로 건강 해 보이지 않습니다.


1
오른쪽-SMART 데이터는 또한 얼마나 많은 섹터가 이미 재 할당되었는지를 알려줄 수 있습니다.
James Youngman

3

나는 이것이 오래되었다는 것을 알고 있지만 누군가가 여전히이 게시물을 읽고있는 경우를 대비하여 : "DD는 또한 깨진 섹터를 읽으려고 시도합니다."-gddrescue가 여기에 유용합니다. 그것은하지 않습니다 (알겠습니다,하지만 한 번만).


1

해당 상자를 편리하게 복원 할 수있는 전체 백업이없는 경우 해당 디스크의 dd 이미지 또는 rsync 사본을 만드십시오 ++ . 그리고 호환되고 작동하는 교체 디스크를 찾으십시오.

BTW, UDMA / 66은 10 년 된 PATA 디스크입니까?


2
DD는 또한 깨진 섹터를 읽으려고합니다.
Hennes

3
일반적으로 최상의 효과는 아닙니다 ... 오류 동작을보다 잘 제어 할 수있는 ddrescue라는 고급 버전이 있습니다.
rackandboneman

항상 있습니다 만 conv=noerror, 파일 시스템이 손상된 시스템이 어떻게 작동하는지 잘 모르겠습니다. 아마도 파일 단위로 데이터 파일을 읽는 것보다 나쁘지는 않지만 확실히 나아지지는 않을 것입니다.
CVn

0

이미 언급했듯이 드라이브의 수명이 거의 다되었지만 반드시 즉각적인 것은 아닙니다 fsck. 디스크에서 디스크를 실행 하고 오류를 복구하려고 시도하십시오 ( 잘못된 블록 수정에 대한 조언 은 smartmontools wiki 참조 ). 더 이상.

그러나 패키지의 smartd일부로 실행을 시작 smartmontools하고 보고서를 주시하거나 전자 메일 알림을 설정해야합니다. 또한에서 /etc/smartmontools/run.d/호출하는 스크립트를 작성하여 사용자 정의 알림을 추가 할 수도 있습니다 smartd-runner.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.