언제 드라이브를 교체해야합니까?


9

ZFS를 처음 접했고 8 개의 드라이브로 간단한 미러링 된 저장소 풀 설정이 있습니다. 몇 주 동안 실행 한 후 하나의 드라이브에서 많은 오류가 발생하는 것처럼 보였으므로 교체했습니다.

몇 주가 더 지난 지금 풀 주변에서 작은 오류가 발생하는 것을 볼 수 있습니다 ( zpool status아래 출력 참조). 이것에 대해 걱정해야합니까? 오류가 드라이브를 교체해야하는지 여부를 어떻게 알 수 있습니까?

# zpool status
  pool: storage
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 22.5K in 1h18m with 0 errors on Sun Jul 10 03:18:42 2016
config:

        NAME        STATE     READ WRITE CKSUM
        storage     ONLINE       0     0     0
          mirror-0  ONLINE       0     0     0
            enc-a   ONLINE       0     0     2
            enc-b   ONLINE       0     0     0
          mirror-1  ONLINE       0     0     0
            enc-c   ONLINE       0     0     0
            enc-d   ONLINE       0     0     2
          mirror-2  ONLINE       0     0     0
            enc-e   ONLINE       0     0     2
            enc-f   ONLINE       0     0     1
          mirror-3  ONLINE       0     0     0
            enc-g   ONLINE       0     0     0
            enc-h   ONLINE       0     0     3

errors: No known data errors

ZFS는 "장치 교체 여부 결정"에 도움이되지만 어떻게해야할지 잘 모르겠습니다. 나는 도움이되었지만 정확하게 결정적이지는 않은 기사를 읽었습니다.

영향을받은 드라이브에 대한 SMART 테스트 결과를 살펴 보았는데 아무런 문제가 없었지만 (모든 테스트가 오류없이 완료되었지만) 도움이 될 경우 SMART 데이터도 게시 할 수 있습니다.

업데이트 : Memtest86 +로 재부팅을 준비하는 동안 콘솔에서 많은 오류가 발견되었습니다. 나는 일반적으로 SSH를 사용하기 때문에 전에는 보지 못했습니다. 어떤 로그를 확인했는지 확실하지 않지만 전체 화면에는 다음과 같은 오류가 표시됩니다 (정확한 오류 행이 아니라 다른 포럼에서 복사했습니다).

blk_update_request: I/0 error, dev sda, sector 220473440

일부 인터넷 검색 에서이 오류는 드라이브가 잘못되었음을 나타내는 것처럼 보이지만 이러한 오류가 한 번에 모두 실패한다고 믿기가 어렵습니다. 여기서 어디로 가야할지 생각하십니까?

업데이트 2 :문제 와 관련이있는 것처럼 보이는 이 ZOL 문제 가 발생했습니다. OP와 마찬가지로 hdparm을 사용하여 드라이브를 스핀 다운하고 비슷한 ZFS 체크섬 오류 및 blk_update_request오류가 표시됩니다. 내 컴퓨터는 여전히 Memtest를 실행하고 있으므로 현재 커널 또는 ZFS 버전을 확인할 수 없지만 적어도 가능성이있는 것 같습니다. 나는 또한 비슷한 질문 을 보았습니다 . 누구든지 ZFS 및 스핀 다운 문제를 알고 있습니까?

업데이트 3 : LSI 컨트롤러의 펌웨어 및 드라이버 버전이 일치하지 않아 이와 같은 오류가 발생할 수 있습니까? 드라이버 버전 20.100.00.00 및 펌웨어 버전 17.00.01.00을 실행중인 것 같습니다. 카드에서 업데이트 된 펌웨어를 플래시하려고 시도하는 동안 가치가 있습니까?

# modinfo mpt2sas
filename:       /lib/modules/3.10.0-327.22.2.el7.x86_64/kernel/drivers/scsi/mpt2sas/mpt2sas.ko
version:        20.100.00.00
license:        GPL
description:    LSI MPT Fusion SAS 2.0 Device Driver
author:         Avago Technologies <MPT-FusionLinux.pdl@avagotech.com>
rhelversion:    7.2
srcversion:     FED1C003B865449804E59F5

# sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 20.00.00.00 (2014.09.18) 
Copyright (c) 2008-2014 LSI Corporation. All rights reserved 

    Adapter Selected is a LSI SAS: SAS2308_2(D1) 

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

0  SAS2308_2(D1)   17.00.01.00    11.00.00.05    07.33.00.00     00:04:00:00

업데이트 4 :dmesg 출력 에서 더 많은 오류가 발생했습니다 . 무엇이 이들을 트리거했는지는 확실하지 않지만 LSI 컨트롤러의 펌웨어 업데이트를 준비하기 위해 어레이의 모든 드라이브를 마운트 해제 한 후 발견되었습니다. 펌웨어 업데이트로 문제가 해결되었는지 조금 기다릴 것이지만 그 동안의 오류는 다음과 같습니다. 나는 그들이 무엇을 의미하는지 잘 모르겠습니다.

[87181.144130] sd 0:0:2:0: [sdc] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144142] sd 0:0:2:0: [sdc] CDB: Write(10) 2a 00 35 04 1c d1 00 00 01 00
[87181.144148] blk_update_request: I/O error, dev sdc, sector 889461969
[87181.144255] sd 0:0:3:0: [sdd] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144259] sd 0:0:3:0: [sdd] CDB: Write(10) 2a 00 35 04 1c d1 00 00 01 00
[87181.144263] blk_update_request: I/O error, dev sdd, sector 889461969
[87181.144371] sd 0:0:4:0: [sde] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144375] sd 0:0:4:0: [sde] CDB: Write(10) 2a 00 37 03 87 30 00 00 08 00
[87181.144379] blk_update_request: I/O error, dev sde, sector 922978096
[87181.144493] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144500] sd 0:0:5:0: [sdf] CDB: Write(10) 2a 00 37 03 87 30 00 00 08 00
[87181.144505] blk_update_request: I/O error, dev sdf, sector 922978096
[87191.960052] sd 0:0:6:0: [sdg] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87191.960063] sd 0:0:6:0: [sdg] CDB: Write(10) 2a 00 36 04 18 5c 00 00 01 00
[87191.960068] blk_update_request: I/O error, dev sdg, sector 906238044
[87191.960158] sd 0:0:7:0: [sdh] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87191.960162] sd 0:0:7:0: [sdh] CDB: Write(10) 2a 00 36 04 18 5c 00 00 01 00
[87191.960179] blk_update_request: I/O error, dev sdh, sector 906238044
[87195.864565] sd 0:0:0:0: [sda] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87195.864578] sd 0:0:0:0: [sda] CDB: Write(10) 2a 00 37 03 7c 68 00 00 20 00
[87195.864584] blk_update_request: I/O error, dev sda, sector 922975336
[87198.770065] sd 0:0:1:0: [sdb] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87198.770078] sd 0:0:1:0: [sdb] CDB: Write(10) 2a 00 37 03 7c 88 00 00 20 00
[87198.770084] blk_update_request: I/O error, dev sdb, sector 922975368

업데이트 5 : LSI 컨트롤러 용 펌웨어를 업데이트했지만 ZFS 오류를 제거하고 스크러빙 한 후에도 동일한 동작 (일부 드라이브의 작은 체크섬 오류)이 나타납니다. 다음 단계는 드라이브 자체의 펌웨어를 업데이트하는 것입니다.

업데이트 6 : U-NAS NSC800 케이스를 가진 다른 사람들이 제공된 라이저에 문제가 있음을 일부 포럼에서 읽은 후 PCI 라이저를 교체했습니다. 체크섬 오류에는 영향을 미치지 않았습니다. 프로세스가 너무 어려워 HDD 펌웨어 업데이트를 중단했지만 부팅하고 DOS 플래시 드라이브를 만들어야 할 때입니다.

업데이트 7 : 세 개의 Seagate 드라이브에서 펌웨어를 업데이트했습니다. 다른 드라이브에 사용 가능한 펌웨어 업데이트가 없거나 구할 수 없었습니다 (Western Digital은 드라이브에 대한 펌웨어 업데이트가 없다고 말했습니다). 초기 스크럽 후에도 오류가 발생하지 않았지만 문제가 해결되었다고 말하기 전에 적어도 일주일 또는 2 주가 걸립니다. 세 개의 드라이브에있는 펌웨어가 이와 같이 전체 풀에 영향을 미칠 가능성은 거의 없습니다.

업데이트 8 : 이전과 마찬가지로 체크섬 오류가 다시 발생합니다. 마더 보드의 펌웨어 업데이트를 살펴볼 수 있지만이 시점에서 손실되었습니다. 나머지 물리적 구성 요소 (컨트롤러, 백플레인, 케이블 연결)를 교체하는 것은 어렵고 비용이 많이 들며, 설정에 문제가 없는지 100 % 확신 할 수 없습니다 (ZFS + Linux + LUKS + 유휴 드라이브 스핀 다운). 다른 아이디어는 환영합니다.

업데이트 9 : 여전히 이것을 추적하려고합니다. 나는 내 상황과 비슷한 이 질문 을 보았습니다. 그래서 계속해서 zpool을 사용 ashift=12하여 문제를 해결할 수 있는지 확인했습니다 (행운 없음). 그런 다음 총알을 물고 새 컨트롤러를 구입했습니다. 방금 Supermicro AOC-SAS2LP-MV8 HBA 카드를 설치했습니다. 이것이 문제를 해결하는지 확인하기 위해 1-2 주를 줄 것입니다.

업데이트 10 : 그냥 닫으십시오. 새 HBA 카드가 들어온 지 약 2 주가 지났으며 징크스가 발생할 위험이 있기 때문에 체크섬 오류가 없었습니다. 이것을 분류하는 데 도움을 주신 모든 분들께 감사드립니다.


2
하드웨어에 대해 더 자세히 말씀해 주시겠습니까? 여러 드라이브에서 이러한 오류가 발생하면 백플레인 / 컨트롤러 / 캐빈 문제가 디스크 문제 이상을 나타내는 것으로 보입니다.
ewwhite

나는 그것을 생각하지 않았다. 드라이브는 내장 SATA / SAS 백플레인과 함께 제공 되는 U-NAS NSC-800 섀시 에 있습니다. 이는 2 개의 미니 SAS 커넥터를 통해 LSI SAS 9207-8i HBA에 연결됩니다. 섀시와 함께 제공된 PCI 라이저를 통해 Supermicro MBD-X10SDV-4C에 연결 됩니다.
Dominic P

1
RAM이 괜찮습니까? 메모리 모듈이 불량했을 때 비슷한 오류가 발생했습니다-디스크 오류는 없지만 모든 드라이브에서 약간의 체크섬 오류가 발생했습니다.
user121391

1
이 시점에서 컨트롤러가 명백하게 명백한 것 같습니다. 실제로 "업데이트 4"와 함께 몇 시간 전에 명백히 드러났습니다.
Michael Hampton

1
천만에요. 이 사이트의 사람들은 저에게 많은 도움을 주었으므로 나의 모범이 다른 사람에게 도움이된다는 이야기를 듣는 것이 좋습니다.
Dominic P

답변:


6

여러 드라이브에 걸쳐 이러한 오류가 발생하면 백플레인 / 컨트롤러 / 캐 버링 문제가 디스크 또는 RAM 문제 이상을 나타내는 것으로 보입니다.


도와 주셔서 감사합니다. 현재 해당 구성 요소를 모두 교체 할 수 없습니다. 내가 어떻게 범위를 좁힐 수 있는지 또는 가장 범인이 될 수있는 것에 대한 제안이 있습니까?
Dominic P

영향을받는 모든 구성 요소의 펌웨어 업데이트를 시도하십시오. 이 SATA 디스크입니까?
ewwhite

고마워 펌웨어와 드라이버 버전이 일치해야한다는 것을 다른 곳에서 보았으므로 컨트롤러의 펌웨어 업데이트부터 시작하겠습니다 (질문의 업데이트 3 참조). 예, 모두 1TB SATA 디스크이며, smartctl사용중인 일부 Seagate 디스크에 대해 펌웨어 업데이트가 있었으므로 업데이트 할 예정입니다.
Dominic P

7

일반적으로 오류가 계속해서 발생하면 디스크를 교체해야합니다. 정적 인 경우 오류를 일으킨 일시적인 상태 일 수 있으며 시스템이 문제를 일으킨 조건을 재현하지 못합니다.

몇 가지 체크섬 오류가 드라이브에 기계적으로 나쁜 것을 나타내는 것은 아닙니다 (비트 썩음이 발생하고 ZFS는 다른 파일 시스템이 감지하지 않는 동안 ZFS가 감지합니다). 그러나 이러한 오류가 1 시간 동안 발생한 경우 그들이 1 년 동안 일어났던 것과는 다른 상황입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.