3Ware RAID6 어레이가 때때로 정지됩니다. 깨진 디스크가 감지되지 않습니까?

13

우리는 3Ware 9650SE 8- 드라이브 RAID 컨트롤러와 5 개의 디스크 RAID6 어레이를 가진 데비안 서버를 가지고 있으며, 모든 리눅스에서 가상 머신 호스트 역할을합니다. 문제가 계속 발생하며 감지되지 않은 깨진 디스크가 의심됩니다.

호스트와 모든 게스트 모두 IO 시스템이 120 초 이상 차단되었다고 말하는 몇 가지 충돌이 발생했습니다. 결함이있는 RAID 컨트롤러를 의심했지만 동일한 펌웨어를 가진 동일한 컨트롤러로 교체했지만 문제가 해결되지 않았습니다. 두 번째 RAID1 어레이가 계속 제대로 작동하기 때문에 그렇게 생각하지 않았습니다.

거의 일주일 전 (일요일)에이 기능이 작동했을 때 자동 확인은 66 %였습니다. 지난 밤 (금요일 아침) 67 %였습니다. 부팅 전후에 문제가 발생했습니다. 으로 확인을 끄면 tw_cli /c0/u0 stop verify상황이 다시 반응하게됩니다.

디스크 오류가 약 66 % 인 것으로 의심됩니다. 토요일에 자동 확인이 시작됩니다.

# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM

일반적으로 금요일까지 오래 걸릴 것입니다. 일요일이 66 %, 금요일이 67 % 인 것으로 보면 우연의 일치는 아닙니다.

모든 드라이브에서 'smartctl -a -d 3ware, 0 / dev / twa0'및 'smartctl -t long'(긴 SMART 자체 테스트)에서 오류가 발견되지 않았습니다. 둘 다하지 않습니다 tw_cli /c0 show alarms.

디스크가 감지하기 어려운 방식으로 고장난 것으로 의심되었지만 각 드라이브를 하나씩 어레이에서 꺼내어 단일 어레이를 생성하고 0으로 가득 찼습니다. 디스크에 오류가 표시되지 않았습니다.

아니면 다른 조언이 있습니까?

편집하다:

이것은 레이아웃입니다.

# tw_cli /c0 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-6    OK             -       -       256K    5587.9    RiW    OFF    
u1    SPARE     OK             -       -       -       1863.01   -      OFF    
u2    RAID-1    OK             -       -       -       1862.63   RiW    ON     

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   1.82 TB   SATA  0   -            ST32000542AS        
p1    OK             u0   1.82 TB   SATA  1   -            ST32000542AS        
p2    OK             u0   1.82 TB   SATA  2   -            ST32000542AS        
p3    OK             u0   1.82 TB   SATA  3   -            ST32000542AS        
p4    OK             u0   1.82 TB   SATA  4   -            ST32000542AS        
p5    OK             u1   1.82 TB   SATA  5   -            WDC WD2002FYPS-02W3 
p6    OK             u2   1.82 TB   SATA  6   -            WDC WD2002FYPS-02W3 
p7    OK             u2   1.82 TB   SATA  7   -            WDC WD2002FYPS-02W3 

Name  OnlineState  BBUReady  Status    Volt     Temp     Hours  LastCapTest
---------------------------------------------------------------------------
bbu   On           Yes       OK        OK       OK       0      xx-xxx-xxxx

해당 단위는 u0입니다.

edit2 :

tw_cli / c0 show diag는 흥미로운 것을 보여줍니다 (edit3 : 이것은 무해합니다 smartctl -a -d 3ware,X /dev/twa0.X가 유효하지 않은 포트를 호출 하여 발생한다는 것을 알았습니다 ) :

QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF

Legacy opcode=0xB1 error=0x10E

E=010E T=14:15:51     : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)

나는 이것의 톤을 얻는다. 나는 그것이 무엇을 의미하는지 전혀 모른다. 어떤 장치 나 포트인지 알 수 없습니다. (edit3 : 지금은 알고 있지만 무해합니다).

내 edit3이 주어지면 다시 사각형으로 돌아갑니다. 확인이 66 %에서 중단되고 어레이가 중단되는 경우를 제외하고 디스크가 고장난 것은 표시되지 않습니다. 확인에서 결함을 찾을 수 있기를 바랍니다.

3ware

— 하프 가르
소스

어떤 HDD? 그들은 공식적으로 지원됩니까?

— grs

레이아웃을 추가했습니다. 디스크는 ST32000542AS입니다. 그들은 지원되지만 서버는 3 년 동안 잘 작동했습니다.

— Halfgaar

어느 시점에서 일부 WD 드라이브의 속도가 느려지는 문제가있었습니다. hdparm 만 (여기서 슬프게도 할 수 없음)은 일반적인 80 ~ 100MB / s 대신 ~ 300KB / s (예 K!)의 출력을 보여주었습니다.

— Benjamin Sonntag

1

Enterprise와 데스크탑 드라이브 디스크의 차이점은 버그를 해결한다는 것입니다. Enterprise 드라이브에 오류가 발생하면 디스크가 급격히 떨어집니다. (데이터 저장의 위험에 민감하고 비용을 지불 할 의사가있는 회사에서와 같이) 데스크톱 드라이브가 결함을 충족하면 모든 시간 초과가 끝날 때까지 지속됩니다. ST32000542AS는 조용하고 경제적 인 데스크탑 버전 디스크 인 것 같습니다. 예 : goo.gl/rWb5lj

— Rainbow-

실제로 최근에이 서버는 갑자기 원래 문제와 다르게 심각하게 중단되었으며 로그에 RAID 포트의 시간 초과가 표시되었습니다. 시간 초과가 엔터프라이즈 드라이브 중 하나에서 발생했습니다 (이 서버에 더 많은 서버가 있음).

— Halfgaar

1

지금까지 제기되지 않은 2 가지 :

이것은 SATA RAID 컨트롤러입니까? 그렇다면 SATA 케이블이 노화되기 쉽기 때문에 교체하면 이러한 문제를 쉽게 해결할 수 있습니다. 디스크 오류, 지연, 시간 초과가 발생하지만 SMART 값이 모두 정상이고 드라이브가 모든 자체 테스트를 통과 한 경우 대부분 시도 할 수 있습니다. 불행히도 좋은 SATA 케이블 벤더를 찾는 것은 어렵습니다.
3Ware RAID 컨트롤러는 현재 오래되었으며 지원되지 않습니다. 펌웨어 업그레이드 나 예비 부품은받지 않습니다. 컨트롤러가 죽으면 컨트롤러 및 펌웨어가 일치하지 않으면 RAID를 복구 할 수 없습니다. 그런 다음 고가의 데이터 복구가 필요합니다.

— flohack
소스

0

이 문제는 디스크 중 하나에 읽기 오류가 발생하여 섹터를 재 할당 할 수 있도록 관리하거나 RAID 컨트롤러가 드라이브가 죽었다고 가정하고 "디그레이 드됨"으로 표시 할 때까지 전체 어레이를 차단하기 때문일 수 있습니다. (이것은 문제의 컨트롤러에 달려 있습니다). 디스크가 죽기 시작하지만 여전히 SMART를 통과하는 경우에 종종 발생할 수 있습니다. 대부분의 소비자 디스크는 계속해서 읽기를 계속 시도합니다.

이 문제는 오류 복구 제어 라는 것을 사용하여 RAID로 향하는 일부 드라이브에서 해결되었습니다 . WD는이 TLER을 호출합니다. 사이트에서 :

RAID-specific time-limited error recovery (TLER) - Pioneered by WD, this feature prevents drive fallout caused by the extended hard drive error-recovery processes common to desktop drives.

기본적으로 디스크에 섹터를 읽을 수없는 경우 x 초 후에 포기하도록 지시합니다. 다른 디스크에서 데이터를 복구 할 수 있기 때문에 RAID에서 유용합니다.

내가 읽은 바에 따르면 ST32000542AS는 어떤 형태의 ERC도 구현하지 않으므로 전체 어레이를 차단할 수 있습니다. WD2002FYPS는 실제로 WD의 TLER을 구현하므로이 문제가 발생하지 않습니다.

— succulent_headcrab
소스

0

펌웨어 버전은 무엇입니까?

다음 요구 사항이 충족되면 내가 경험 한 문제가 있습니다.

3ware 96xx 시리즈 컨트롤러
RAID 6
256k 스트라이프 크기
펌웨어 버전 <v4.10.00.021 *

당시에는 사용 가능한 펌웨어 수정이 없었으므로 256k에서 64k 스트라이프 크기로 마이그레이션하여 문제를 해결했습니다. 해결 방법으로 시도해 볼 수는 있지만 완료하는 데 며칠이 걸릴 것입니다.

나중에 256k의 새 펌웨어 (* 4.10.00.021로 수정했다고 생각)를 시도하고 매력처럼 작동했습니다. 4.10.00.027이 최신 버전입니다.

— 애 크러
소스

더 이상 문제가 없습니다. 검증은 항상 성공했습니다. 그러나 몇 달 전 (문제없이 오랜 시간이 지난 후) 서버가 완전히 정지되었습니다. Dmesg는 디스크 x가 시간 초과되었다고 말했다. 컨트롤러가 왜 작동하지 않는지 모르겠지만 명시 적으로 성능이 저하 된 것으로 표시되지는 않았지만 교체했습니다. 그리고 그 이후로 다른 디스크도 교체되었습니다. 디스크 문제 일 가능성이 높습니다.

— Halfgaar

0

3웨어 컨트롤러와 Seagate 드라이브에 문제가있었습니다. 미묘한 펌웨어 비 호환성이 있습니다. 삼성 드라이브로 전환했는데 문제가 해결되었습니다.

— 즈데 네크
소스