알 수없는 이유로 하드 디스크가 오프라인 상태가 됨


11

아래 설정을 실행하는 7 개의 시스템이 있습니다. 이제 다른 디스크가 오프라인 상태가되지만 자세히 살펴보면 디스크가 양호하고 결함이 없으며 최소 1 년 동안 완벽하게 작동합니다. 이것은 모든 7 시스템에서 발생하기 때문에 작동하는 단일 부품 (예 : 케이블)이있을 가능성은 거의 없지만 약간 호환되지 않는 일부 부품의 조합 일 수 있습니다.

문제는 비 호환성이있는 정확한 지점을 찾는 것입니다.

대신 명령 줄에서 하드 디스크를 가상으로 다시 장착 할 수있는 해결 방법이있는 경우 /server/523315/re-activate-device 에 응답 할 수 있습니다. -그것은 죽은 것으로 간주됩니다 ).

서버 하드웨어 : Dell 1950, Dell R815, Dell R715

운영 체제 :

$ uname -a
Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux

제어 장치:

$ lspci |grep 22: 
22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)
$ sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 15.00.00.00 (2012.11.06) 
Copyright (c) 2008-2012 LSI Corporation. All rights reserved

    Adapter Selected is a LSI SAS: SAS2008(B2)   

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

1  SAS2008(B2)     15.00.00.00    0f.00.00.04    07.29.00.00     00:22:00:00

    Finished Processing Commands Successfully.
    Exiting SAS2Flash.

단일 LSI SAS2X36 확장기 칩이 장착 된 SAS / SATA 확장기 Supermicro 4U SAS / SATA 확장기 후면 판 :

cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/model
SAS2X36         
cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/rev
0717

디스크 :

$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/model
Hitachi HDS72404
$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/rev
A3B0

한 시스템의 디스크 :

$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/model
ST3000DM001-9YN1
$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/rev
CC4C

Syslog :

sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw]
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b9 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694144
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b7 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693632
sd 5:0:22:0: [sdw] Unhandled error code
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Read(16):
sd 5:0:22:0: [sdw] Unhandled error code
 88 00 00 00 00 01 43 e2 f2 d0 00 00 00 10 00 00
end_request: I/O error, dev sdw, sector 5433914064
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bd 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982695168
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
md/raid:md4: Disk failure on sdw, disabling device.
md/raid:md4: Operation continuing on 9 devices.
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b8 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693888
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bc 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694912
mpt2sas1: removing handle(0x0021), sas_addr(0x500304800182694c)

9
중요한 질문을하기 시작한 +1 :)
Sven

차폐가없는 잘못된 케이블은 체크섬에 문제를 일으킬 수 있습니다. [따라서 읽기 및 쓰기 문제 발생]. 케이블 교체를 시도 했습니까?
monksy

케이블이 알려진 제품으로 교체되었습니다. 또한 scsi 버스를 재설정 한 후 Linux가 명령을 다시 시도 할 것으로 예상합니다.
Ole Tange

2
내가 지금까지 조사한 내용에서 SMART 경고가 아닌 연결 문제가 있음을 나타내는 메시지가 있습니다. 아마도 광범위한 BiY 경험을 가진 다른 사람이 도울 수 있습니다. 내가 아는 것은 SAS와 비교할 때 명령 / 큐가 없기 때문에 대규모 설정에서 S-ATA 디스크에서 멀리 떨어져 있다는 것입니다. 몇 가지를 살펴 보도록하겠습니다.
pauska

@pauska 발굴 한 내용을 정교하게 설명 할 수 있습니까?
Ole Tange

답변:


1

여기에 정보가 없습니다. 이 저장소 설정에는 서버 당 24-45 개의 디스크가있는 것이 좋습니다.

  • 어떤 특정 컨트롤러를 사용하고 있습니까?
  • 디스크 수로 인해 외부 인클로저에 일부 드라이브가있을 수 있습니다. 사용중인 외장 드라이브 인클로저의 제조업체 / 모델을 제공하십시오.
  • 어떤 드라이브 모델을 사용하고 있습니까? 있습니까 모든 디스크 데스크탑 수준의 드라이브는?
  • 어떤 파일 시스템을 사용하고 있습니까?
  • 디스크 및 RAID 레이아웃을 설명하십시오.
  • 이것이 항상 문제였습니까, 아니면 시간이 지남에 따라 발전 했습니까?
  • 슈퍼 마이크로는 이 설정에서 어느 곳을 포함?

인클로저 설정에 따라 SATA 시간 초과 또는 버스 오류가 발생했을 수 있습니다. 이는 컨트롤러에 연결된 모든 드라이브에 영향 있습니다 .

또 다른 문제는 잘못된 SAS / SATA 링크 협상 일 수 있습니다. 1.5Gbps 및 6.0Gbps 드라이브가 동일한 보드에 혼합되어있을 때 일부 SAS 확장기에서이 문제를 확실히 경험했습니다.

자세한 정보를 제공하십시오.


Supermicro에 대한 귀하의 질문에 매우 관심이 있습니다. 정교하게 할 수 있습니까?
Halfgaar

@Halfgaar 다른 질문에 대한 피드백을 제공해 주시겠습니까?
ewwhite

원래 게시물은 내 것이 아닙니다. 나는 그 진술에 대해 궁금하다.
Halfgaar

1
@Halfgaar Ooops ... 글쎄, Supermicro SAS 확장 / 백플레인과 일부 JBOD 인클로저는 많은 상황에서 예상대로 작동하지 않는 것으로 나타났습니다. SAS / SATA 속도 다운 시프 팅 및 링크 협상에 대한 나의 대답은 내가 Supermicro 장비의 특정 버전에서만 경험 한 것입니다. 또한 이상한 행동으로 인해 ZFS에 JBOD를 더 이상 사용할 수 없습니다.
ewwhite
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.