ESX Guest에서 vmfs 백업 드라이브의 하드웨어 디스크 오류 ... 어떻게 가능합니까?

8

ESX 내부의 게스트는 이와 같은 io 문제를 어떻게 찾을 수 있습니까?

[ 40.601502] end_request: critical target error, dev sdg, sector 430203456
[ 40.601563] sd 2:0:6:0: [sdg] Unhandled sense code
[ 40.601582] sd 2:0:6:0: [sdg] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
[ 40.601622] sd 2:0:6:0: [sdg] Sense Key : Hardware Error Sense Key : Hardware Error [current] [current] 
[ 40.601661] sd 2:0:6:0: [sdg] Add. Sense: Internal target failureAdd. Sense: Internal target failure
[ 40.601695] sd 2:0:6:0: [sdg] CDB: Write(10)Write(10):: 2a 2a 00 00 02 19 64 a4 05 62 c0 80 00 00 00 00 40 40 00 00

물리적으로 데이터는 raid6 어레이 (adaptec 5805)에 저장된 vmfs에 있습니다.
또한 ESX 호스트는 문제를 기록하지 않습니다
게스트가보고 한 디스크 크기는 프로비저닝 된 디스크 크기와 같습니다.
esx를 통해 게스트는 9 개의 동일한 '드라이브'가 연결되었으며 2 개만이이 문제를 나타냅니다.

linux vmware-esxi

— 토비 오에 티커
소스

1

I / O 에뮬레이션 레이어에 버그가 있습니까? 게스트의 SCSI 컨트롤러 유형을 변경하여 동작이 변경되는지 확인 했습니까? 지정된 섹터에 액세스하면 오류가 재현됩니까? 사용 dd if=/dev/sdg bs=512 skip=430203455 count=1을 위해 다시 읽거나 단지 badblocks -w -b 512 /dev/sdg 430203457 430203455당신이 용감 느낌이 경우 읽기 testwrite - 재 작성주기를 할 수 있습니다.

— the-wabbit

어떤 버전의 커널이 있습니까? 커널을 업그레이드하고 오류가 계속 나타나는지 확인하십시오.

— Sacx

1

ESX 4.0의 Win 2008 게스트에서 MS SQL의 백업 볼륨에서 비슷한 것을 경험했습니다. NetApp 파일러에서 노출 된 원시 볼륨입니다.

게스트 OS가 해당 볼륨에서 불량 섹터를보고하고 있습니다.
너무 많은 I / O 쓰기 작업, 일시적인 시간 초과 또는 파일러 과부하로 인해 이러한 문제가 발생했다고 생각합니다.
더 이상 불량 섹터가보고되지 않았습니다. NetApp "디스크 스크러빙"에 문제가 없다고 말합니다. 파일러 오류가보고되지 않았습니다.

그러나 우리는 어쨌든이 볼륨을 재 작성하고 이것이 고쳐 지는지 확인하려고합니다.

이 파일러의 다른 볼륨은 어떻습니까? "badblocks / dev / sdg"명령으로이 볼륨을 확인할 수 있습니까? (주의 : 큰 읽기 오버 헤드)

— 너무 미크
소스

1

결국 하드웨어 / 펌웨어 문제였습니다. Adaptec 5805 (최신 펌웨어 포함)는 모든 RAID6 볼륨을 최적 상태로보고했지만 볼륨 하나에 '실패한 스트라이프'가 포함되어 있다고보고했습니다. 그 결과 RAID6 볼륨의 일부를 읽을 수 없게됩니다 (질문에 인용 된 오류로 인해). ESX는이를 직접 보지 못하지만 dd if=/dev/zero of=file-on-damaged-volumeESXi 콘솔 에서 직접 실행 하면 볼륨에 충분한 공간이있는 동안 i / o 오류가 발생했습니다.

볼륨에서 arcconf verify / verify_fix가 실행되지 않았으며 물리적 장치가 무엇이든 감지하거나 수정할 수 없었습니다. ... 결국 모든 데이터를 볼륨에서 멀리 옮기고 adaptec 레벨에서 다시 작성했습니다. 이제는 모든 것이 잘되었지만 내 데이터를 보호하는 adaptec의 능력에 대한 나의 신뢰는 심각하게 손상되었습니다.

— 토비 오에 티커
소스

1

이는 그러한 상황에 대한 Sun / Oracle 절차 와 매우 일관성이 있습니다 . 불량 줄무늬 에 대한 배경 정보를 제공하는 불량 줄무늬에 대한이 Adaptec FAQ 기사 도 있습니다.

— the-wabbit

그렇습니다 .Sun / Oracle 기사는 올바른 (슬픈) 트랙으로 나를 안내했습니다. 우리는이 어레이에 디스크 고장이 발생했지만 raid6이므로 중복성이있었습니다. 나중에 미디어를 점검하지 않은 경우에도 나머지 디스크에 오류가있는 것으로 나타났습니다. 이 동작에 대한 변명 :-( 결코 우리의 아레카 컨트롤러와 그러한 문제가 있었다.

— 토비 Oetiker에게

나는 Adaptec 컨트롤러를 거의 사용하지 않고 주로 LSI 스토리지를 유지 관리하지만 "나쁜 줄무늬"를 발견 한 것은 이번이 처음입니다. 이것이 Adaptec 구현에 매우 특정한 것인지 궁금합니다.

— the-wabbit