우리는 3Ware 9650SE 8- 드라이브 RAID 컨트롤러와 5 개의 디스크 RAID6 어레이를 가진 데비안 서버를 가지고 있으며, 모든 리눅스에서 가상 머신 호스트 역할을합니다. 문제가 계속 발생하며 감지되지 않은 깨진 디스크가 의심됩니다.
호스트와 모든 게스트 모두 IO 시스템이 120 초 이상 차단되었다고 말하는 몇 가지 충돌이 발생했습니다. 결함이있는 RAID 컨트롤러를 의심했지만 동일한 펌웨어를 가진 동일한 컨트롤러로 교체했지만 문제가 해결되지 않았습니다. 두 번째 RAID1 어레이가 계속 제대로 작동하기 때문에 그렇게 생각하지 않았습니다.
거의 일주일 전 (일요일)에이 기능이 작동했을 때 자동 확인은 66 %였습니다. 지난 밤 (금요일 아침) 67 %였습니다. 부팅 전후에 문제가 발생했습니다. 으로 확인을 끄면 tw_cli /c0/u0 stop verify
상황이 다시 반응하게됩니다.
디스크 오류가 약 66 % 인 것으로 의심됩니다. 토요일에 자동 확인이 시작됩니다.
# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM
일반적으로 금요일까지 오래 걸릴 것입니다. 일요일이 66 %, 금요일이 67 % 인 것으로 보면 우연의 일치는 아닙니다.
모든 드라이브에서 'smartctl -a -d 3ware, 0 / dev / twa0'및 'smartctl -t long'(긴 SMART 자체 테스트)에서 오류가 발견되지 않았습니다. 둘 다하지 않습니다 tw_cli /c0 show alarms
.
디스크가 감지하기 어려운 방식으로 고장난 것으로 의심되었지만 각 드라이브를 하나씩 어레이에서 꺼내어 단일 어레이를 생성하고 0으로 가득 찼습니다. 디스크에 오류가 표시되지 않았습니다.
아니면 다른 조언이 있습니까?
편집하다:
이것은 레이아웃입니다.
# tw_cli /c0 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-6 OK - - 256K 5587.9 RiW OFF
u1 SPARE OK - - - 1863.01 - OFF
u2 RAID-1 OK - - - 1862.63 RiW ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 1.82 TB SATA 0 - ST32000542AS
p1 OK u0 1.82 TB SATA 1 - ST32000542AS
p2 OK u0 1.82 TB SATA 2 - ST32000542AS
p3 OK u0 1.82 TB SATA 3 - ST32000542AS
p4 OK u0 1.82 TB SATA 4 - ST32000542AS
p5 OK u1 1.82 TB SATA 5 - WDC WD2002FYPS-02W3
p6 OK u2 1.82 TB SATA 6 - WDC WD2002FYPS-02W3
p7 OK u2 1.82 TB SATA 7 - WDC WD2002FYPS-02W3
Name OnlineState BBUReady Status Volt Temp Hours LastCapTest
---------------------------------------------------------------------------
bbu On Yes OK OK OK 0 xx-xxx-xxxx
해당 단위는 u0입니다.
edit2 :
tw_cli / c0 show diag는 흥미로운 것을 보여줍니다 (edit3 : 이것은 무해합니다 smartctl -a -d 3ware,X /dev/twa0
.X가 유효하지 않은 포트를 호출 하여 발생한다는 것을 알았습니다 ) :
QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF
Legacy opcode=0xB1 error=0x10E
E=010E T=14:15:51 : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)
나는 이것의 톤을 얻는다. 나는 그것이 무엇을 의미하는지 전혀 모른다. 어떤 장치 나 포트인지 알 수 없습니다. (edit3 : 지금은 알고 있지만 무해합니다).
내 edit3이 주어지면 다시 사각형으로 돌아갑니다. 확인이 66 %에서 중단되고 어레이가 중단되는 경우를 제외하고 디스크가 고장난 것은 표시되지 않습니다. 확인에서 결함을 찾을 수 있기를 바랍니다.