3Ware의 tw_cli는“DEGRADED”디스크와“ECC-ERROR”가 무엇을 의미합니까?


10

3ware 9650SE-16ML 카드에 슬픈 RAID 배열이 있습니다. 내가 말할 수없는 것은 방금 더블 디스크 오류 (버거!)를 겪었는지 또는 이것을 잘못 읽고 있는지입니다. 관련 출력 /c0 show all은 다음과 같습니다.

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ            

그리고 실패는 (에서 show alarms)입니다.

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

나는 일어난 일이 p0에 실패 했다고 생각 하고 p1에 ECC 오류 (일명 내 데이터가 사라짐)가 있다고 생각 합니다. 하지만 ... 어쩌면? 97 %의 재 구축 상태를 유지하지만이 오류를 극복 할 수는 없습니다.

내가 알 수있는 한, 이전 관리자는 정기적 인 확인을 해제했습니다. 이것이 우리를이 상태로 만드는 것입니다. 대부분의 사람들이 3Ware RAID에 대해 걱정해야하는 것은 아닙니다!

최신 정보

며칠 동안 치고 난 후 IgnoreECC 비트를 수행하고 다시 작성했지만 데이터가 제한되었습니다. 버머.


중요한 데이터가 있으면 Freezer Recovery 방법을 사용해보십시오 .
Chris S

나는 냉동실 트릭에 위배되지는 않지만 "내 드라이브가 죽었다"는 것이 아니라 특정 장애 모드가 아닙니까?
Bill Weiss

DEGRADED라고 표시된 디스크는 REBUILD 조작의 대상 디스크입니다.
wazoox

답변:


7

ECC 오류는 드라이브에 읽을 수없는 섹터가 하나 이상 있음을 의미합니다. 그러나 운이 좋으면 해당 볼륨에있는 파일 시스템에서 해당 섹터를 실제로 사용하지 않을 수 있으므로이 상태의 어레이에서 데이터를 여전히 복사 할 수 있습니다.

재 구축 중에 ECC 오류를 무시하는 옵션도 있습니다.

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

그러나이 옵션을 사용하면 불량 섹터의 영향을받는 RAID 스트라이프가 손상됩니다 (이 경우 카드가 정확히 무엇을하는지 확실하지 않음-전체 스트라이프를 0으로 또는 임의의 데이터로 대체 할 수 있음). 복구 됨 "어레이는 실제로 감지 할 수없는 손상을 가질 수 있습니다 (영향을받는 스트라이프가 일부 데이터 파일의 중간에있는 경우). 재구성을 시도하기 전에 어레이에서 다른 장소로 데이터를 복사하는 것이 더 안전 할 수 있습니다 (적어도 나쁜 영역을 읽으려고 할 때 오류가 발생합니다).

읽을 수없는 섹터를 일찍 포착하도록 어레이의 예약 확인을 설정해야합니다. 그러면 방금 시작된 드라이브를 교체 할 수 있습니다.


지금 ignoreECC 비트를하고 있습니다. 내 데이터에 적합하지 않습니다.
Bill Weiss

1
그리고 예, 우리는 때때로 배열을 확인하도록해야합니다. 나는 이것을 설정 한 사람이 성능상의 이유로 그것을 끈 것으로 추측합니다. (
Bill Weiss

글쎄, 그것은 재 구축을 통해 얻었지만 내 데이터에는 아무런 영향이 없습니다. 버머. 그것은 우리에게 확인을 끄도록 가르쳐 줄 것입니다 ...
Bill Weiss

4

물리적 드라이브 (p0)가 DEGRADED 상태가 된 적이 없었지만 ECC-ERROR 드라이브 또는 DEGRADED 드라이브를 통해 제거 할 수 있습니다.

/c0 p1 remove

그리고 다시 스캔을 발행

/c0 rescan

그들을 통해 공격대에 다시 넣어

maint rebuild c0 u0 p1

ECC-ERROR로 실패한 SATA 드라이브 i는 몇 시간 동안이라도 다시 실패하기 전에 부활 할 수있었습니다.


3
현재 상태에서 p1 드라이브를 제거하면 어레이가 완전히 호스로 연결될 수 있습니다.
Sergey Vlasov

나는 p0 드라이브를 사용 하여이 작업을 수행했으며 (불량한 드라이브라고 가정) 다시 빌드하려고하지만 드라이브를 거의 즉시 DEGRADED로 표시했습니다. 버머.
빌 와이스

1
AFAIR의 경우, 재구성 중에 드라이브 가 DEGRADED로 표시되어 있습니다 (예 : 여기 참조) . 중요한 것은 배열 상태 (REBUILDING 또는 다른 것)입니까?
Sergey Vlasov

흠. 실제로 재 구축 중입니다 ... 4 개의 드라이브가 모두 깜박 거리고 있습니다. 좋은 신호입니다. 맞습니까?
Bill Weiss

Stiiiiiil 재건 ... 4 시간 후 37 %입니다. 버머.
Bill Weiss

2

데이터가 사라 졌을 가능성이 큽니다. ECC 오류는이 디스크를 읽는 동안 복구 할 수없는 오류를 의미합니다.

백업하지 않은 경우 어레이의 현재 상태를 덤프 할 수 있습니다. 컨트롤러가 데이터 유실 여부 또는 빈 영역 (파일 시스템에 대한 통찰력이 없음)을 알지 못하기 때문에 가능할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.