ZFS를 처음 접했고 8 개의 드라이브로 간단한 미러링 된 저장소 풀 설정이 있습니다. 몇 주 동안 실행 한 후 하나의 드라이브에서 많은 오류가 발생하는 것처럼 보였으므로 교체했습니다.
몇 주가 더 지난 지금 풀 주변에서 작은 오류가 발생하는 것을 볼 수 있습니다 ( zpool status
아래 출력 참조). 이것에 대해 걱정해야합니까? 오류가 드라이브를 교체해야하는지 여부를 어떻게 알 수 있습니까?
# zpool status
pool: storage
state: ONLINE
status: One or more devices has experienced an unrecoverable error. An
attempt was made to correct the error. Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
using 'zpool clear' or replace the device with 'zpool replace'.
see: http://zfsonlinux.org/msg/ZFS-8000-9P
scan: scrub repaired 22.5K in 1h18m with 0 errors on Sun Jul 10 03:18:42 2016
config:
NAME STATE READ WRITE CKSUM
storage ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
enc-a ONLINE 0 0 2
enc-b ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
enc-c ONLINE 0 0 0
enc-d ONLINE 0 0 2
mirror-2 ONLINE 0 0 0
enc-e ONLINE 0 0 2
enc-f ONLINE 0 0 1
mirror-3 ONLINE 0 0 0
enc-g ONLINE 0 0 0
enc-h ONLINE 0 0 3
errors: No known data errors
ZFS는 "장치 교체 여부 결정"에 도움이되지만 어떻게해야할지 잘 모르겠습니다. 나는 도움이되었지만 정확하게 결정적이지는 않은 기사를 읽었습니다.
영향을받은 드라이브에 대한 SMART 테스트 결과를 살펴 보았는데 아무런 문제가 없었지만 (모든 테스트가 오류없이 완료되었지만) 도움이 될 경우 SMART 데이터도 게시 할 수 있습니다.
업데이트 : Memtest86 +로 재부팅을 준비하는 동안 콘솔에서 많은 오류가 발견되었습니다. 나는 일반적으로 SSH를 사용하기 때문에 전에는 보지 못했습니다. 어떤 로그를 확인했는지 확실하지 않지만 전체 화면에는 다음과 같은 오류가 표시됩니다 (정확한 오류 행이 아니라 다른 포럼에서 복사했습니다).
blk_update_request: I/0 error, dev sda, sector 220473440
일부 인터넷 검색 에서이 오류는 드라이브가 잘못되었음을 나타내는 것처럼 보이지만 이러한 오류가 한 번에 모두 실패한다고 믿기가 어렵습니다. 여기서 어디로 가야할지 생각하십니까?
업데이트 2 : 이 문제 와 관련이있는 것처럼 보이는 이 ZOL 문제 가 발생했습니다. OP와 마찬가지로 hdparm을 사용하여 드라이브를 스핀 다운하고 비슷한 ZFS 체크섬 오류 및 blk_update_request
오류가 표시됩니다. 내 컴퓨터는 여전히 Memtest를 실행하고 있으므로 현재 커널 또는 ZFS 버전을 확인할 수 없지만 적어도 가능성이있는 것 같습니다. 나는 또한 비슷한 질문 을 보았습니다 . 누구든지 ZFS 및 스핀 다운 문제를 알고 있습니까?
업데이트 3 : LSI 컨트롤러의 펌웨어 및 드라이버 버전이 일치하지 않아 이와 같은 오류가 발생할 수 있습니까? 드라이버 버전 20.100.00.00 및 펌웨어 버전 17.00.01.00을 실행중인 것 같습니다. 카드에서 업데이트 된 펌웨어를 플래시하려고 시도하는 동안 가치가 있습니까?
# modinfo mpt2sas
filename: /lib/modules/3.10.0-327.22.2.el7.x86_64/kernel/drivers/scsi/mpt2sas/mpt2sas.ko
version: 20.100.00.00
license: GPL
description: LSI MPT Fusion SAS 2.0 Device Driver
author: Avago Technologies <MPT-FusionLinux.pdl@avagotech.com>
rhelversion: 7.2
srcversion: FED1C003B865449804E59F5
# sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 20.00.00.00 (2014.09.18)
Copyright (c) 2008-2014 LSI Corporation. All rights reserved
Adapter Selected is a LSI SAS: SAS2308_2(D1)
Num Ctlr FW Ver NVDATA x86-BIOS PCI Addr
----------------------------------------------------------------------------
0 SAS2308_2(D1) 17.00.01.00 11.00.00.05 07.33.00.00 00:04:00:00
업데이트 4 :dmesg
출력 에서 더 많은 오류가 발생했습니다 . 무엇이 이들을 트리거했는지는 확실하지 않지만 LSI 컨트롤러의 펌웨어 업데이트를 준비하기 위해 어레이의 모든 드라이브를 마운트 해제 한 후 발견되었습니다. 펌웨어 업데이트로 문제가 해결되었는지 조금 기다릴 것이지만 그 동안의 오류는 다음과 같습니다. 나는 그들이 무엇을 의미하는지 잘 모르겠습니다.
[87181.144130] sd 0:0:2:0: [sdc] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144142] sd 0:0:2:0: [sdc] CDB: Write(10) 2a 00 35 04 1c d1 00 00 01 00
[87181.144148] blk_update_request: I/O error, dev sdc, sector 889461969
[87181.144255] sd 0:0:3:0: [sdd] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144259] sd 0:0:3:0: [sdd] CDB: Write(10) 2a 00 35 04 1c d1 00 00 01 00
[87181.144263] blk_update_request: I/O error, dev sdd, sector 889461969
[87181.144371] sd 0:0:4:0: [sde] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144375] sd 0:0:4:0: [sde] CDB: Write(10) 2a 00 37 03 87 30 00 00 08 00
[87181.144379] blk_update_request: I/O error, dev sde, sector 922978096
[87181.144493] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144500] sd 0:0:5:0: [sdf] CDB: Write(10) 2a 00 37 03 87 30 00 00 08 00
[87181.144505] blk_update_request: I/O error, dev sdf, sector 922978096
[87191.960052] sd 0:0:6:0: [sdg] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87191.960063] sd 0:0:6:0: [sdg] CDB: Write(10) 2a 00 36 04 18 5c 00 00 01 00
[87191.960068] blk_update_request: I/O error, dev sdg, sector 906238044
[87191.960158] sd 0:0:7:0: [sdh] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87191.960162] sd 0:0:7:0: [sdh] CDB: Write(10) 2a 00 36 04 18 5c 00 00 01 00
[87191.960179] blk_update_request: I/O error, dev sdh, sector 906238044
[87195.864565] sd 0:0:0:0: [sda] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87195.864578] sd 0:0:0:0: [sda] CDB: Write(10) 2a 00 37 03 7c 68 00 00 20 00
[87195.864584] blk_update_request: I/O error, dev sda, sector 922975336
[87198.770065] sd 0:0:1:0: [sdb] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87198.770078] sd 0:0:1:0: [sdb] CDB: Write(10) 2a 00 37 03 7c 88 00 00 20 00
[87198.770084] blk_update_request: I/O error, dev sdb, sector 922975368
업데이트 5 : LSI 컨트롤러 용 펌웨어를 업데이트했지만 ZFS 오류를 제거하고 스크러빙 한 후에도 동일한 동작 (일부 드라이브의 작은 체크섬 오류)이 나타납니다. 다음 단계는 드라이브 자체의 펌웨어를 업데이트하는 것입니다.
업데이트 6 : U-NAS NSC800 케이스를 가진 다른 사람들이 제공된 라이저에 문제가 있음을 일부 포럼에서 읽은 후 PCI 라이저를 교체했습니다. 체크섬 오류에는 영향을 미치지 않았습니다. 프로세스가 너무 어려워 HDD 펌웨어 업데이트를 중단했지만 부팅하고 DOS 플래시 드라이브를 만들어야 할 때입니다.
업데이트 7 : 세 개의 Seagate 드라이브에서 펌웨어를 업데이트했습니다. 다른 드라이브에 사용 가능한 펌웨어 업데이트가 없거나 구할 수 없었습니다 (Western Digital은 드라이브에 대한 펌웨어 업데이트가 없다고 말했습니다). 초기 스크럽 후에도 오류가 발생하지 않았지만 문제가 해결되었다고 말하기 전에 적어도 일주일 또는 2 주가 걸립니다. 세 개의 드라이브에있는 펌웨어가 이와 같이 전체 풀에 영향을 미칠 가능성은 거의 없습니다.
업데이트 8 : 이전과 마찬가지로 체크섬 오류가 다시 발생합니다. 마더 보드의 펌웨어 업데이트를 살펴볼 수 있지만이 시점에서 손실되었습니다. 나머지 물리적 구성 요소 (컨트롤러, 백플레인, 케이블 연결)를 교체하는 것은 어렵고 비용이 많이 들며, 설정에 문제가 없는지 100 % 확신 할 수 없습니다 (ZFS + Linux + LUKS + 유휴 드라이브 스핀 다운). 다른 아이디어는 환영합니다.
업데이트 9 : 여전히 이것을 추적하려고합니다. 나는 내 상황과 비슷한 이 질문 을 보았습니다. 그래서 계속해서 zpool을 사용 ashift=12
하여 문제를 해결할 수 있는지 확인했습니다 (행운 없음). 그런 다음 총알을 물고 새 컨트롤러를 구입했습니다. 방금 Supermicro AOC-SAS2LP-MV8 HBA 카드를 설치했습니다. 이것이 문제를 해결하는지 확인하기 위해 1-2 주를 줄 것입니다.
업데이트 10 : 그냥 닫으십시오. 새 HBA 카드가 들어온 지 약 2 주가 지났으며 징크스가 발생할 위험이 있기 때문에 체크섬 오류가 없었습니다. 이것을 분류하는 데 도움을 주신 모든 분들께 감사드립니다.