HP 서버의 자동화 된 하드웨어 테스트?

프로비저닝 서버의 일부로 HP의 Insight Diagnostics를 실행하여 하드웨어를 테스트합니다. 이것은 수동 프로세스입니다. Insight Diagnostics 실행을 자동화하는 방법이 있습니까?

"-rd :" "모든 진단 가능한 장치의 진단을 실행하십시오"옵션이있는 hpdiags 소프트웨어가 있습니다. 내 테스트에서 이것은별로하지 않습니다 (디스크에서 SMART 정보를 읽습니다). 누구든지 그것에 대해 더 나은 운이 있었습니까?

하드웨어 : HP ProLiant BL460c 블레이드가 장착 된 BladeCenter c7000, DL360.

운영체제 : ESXi and Ubuntu.

hardware hp hp-proliant automated-testing

— 마크 바그너
소스

짧은 대답은 큰 환경 에서이 작업을 방해하지 않는다는 것입니다. 모니터링 및 온보드 진단으로 충분합니다. 그러나 사용중인 서버 모델에 대한 정보를 제공 할 수 있습니까? 그리고 아마도 운영 체제가 관련되었을 수 있습니다.

— ewwhite

요청한 정보로 티켓을 업데이트했습니다.

— Mark Wagner

HP 특정 버전의 ESXi를 설치하고 있습니까? Ubuntu 시스템에 HP Management Agent를 설치하고 있습니까? 서버는 어떤 세대입니까? G6? G7? Gen8?

— ewwhite

HP 관리 에이전트는 ESXi 및 Ubuntu에 모두 설치되어 있습니다. 서버는 Gen8이며 Gen9가됩니다.

— Mark Wagner

I updated the ticket with the requested info-저를 웃게 만들었습니다. 이것은 헬프 데스크가 아닙니다.

— joeqwerty

그래서 다른 질문을하겠습니다.

프로비저닝하기 전에 서버에서 HP Insight 하드웨어 진단을 실행해야하는 이유는 무엇입니까?

위의 의견에서, 나는 큰 HP ProLiant 환경에서 이것을 선제 적으로 수행함으로써 얻는 것이 거의 없다고 지적했습니다. 나는 그것에 대한 내 생각을 분명히해야합니다 ...

내림차순으로 일반적으로 발생하는 문제 유형을 살펴 보겠습니다.

스토리지 배열 및 디스크 : RAID 컨트롤러는 OS, 로그, SNMP, 이메일, ILO에보고 하고 예쁜 표시등 을 켜서 상태를 나타냅니다.
RAM : POST 프로세스는 시스템 상태뿐만 아니라 OS, 로그, SNMP, 이메일, ILO에보고하고 전면 패널 SID (Systems Insight Display) 의 LED 표시등을 켜면서 RAM 상태를 감지 합니다. 또한 이러한 시스템의 오류 감지가 이미 강력하기 때문에 RAM 번인 프로세스 의 팬이 아닙니다 .
열 및 팬 : 서버 온도 및 팬 속도는 ILO에 의해 규제됩니다. 이 시스템에는 30 개 이상의 온도 센서가 있으므로 냉각 시스템이 매우 효율적입니다. 이것은 여전히 OS, 로그, SNMP, 이메일 및 SID에보고합니다.
전원 공급 장치 : PSU 상태는 실제 전원 공급 장치의 실제 표시등뿐만 아니라 OS, 로그, SNMP, 전자 메일 및 SID에보고됩니다.
전반적인 건강 : 이것은 내부 건강 및 외부 건강 LED와 함께 SID 디스플레이로 한 눈에 쉽게 평가할 수 있습니다. 이것은 서버의 로그, SNMP, 이메일 및 ILO에도보고됩니다.

여기에 이미지 설명을 입력하십시오

사전 배포에서 발견되거나 런타임 또는 사후 OS 설치 중에보고되지 않은 조건은 생각할 수 없습니다.

진단 루프는 일반적으로 명백한 사전 문제없이 시스템에서 실행될 때 아무것도 찾지 않습니다. 유틸리티를 실행하려면 서버가 유틸리티 또는 Intelligent Provisioning 펌웨어로 POST 및 부팅해야하기 때문입니다.

다시 말해서, 서버에 심각한 "SPOF"가되는 항목은 시스템이 자체 진단을 실행하지 못하게 할 수 있습니다.

가장 일반적인 고장 항목은 여전히 상당히 견고합니다. 디스크는 RAID에 있어야하며 핫 스왑 가능해야합니다. 팬 및 전원 공급 장치도 핫 스왑 가능합니다. RAM에 ECC 임계 값이 있으며 대부분의 ProLiant 플랫폼에 대한 온라인 스페어 옵션이 있습니다. 진단 프로그램을 실행하여 이러한 구성 요소의 고장을 유발하기 위해 할 수있는 일은 없습니다. 내부 중복성이있는 HP C7000 블레이드 인클로저를 사용하고 있으며 실패 발생률이 매우 낮다 는 사실을 추가하십시오 .

— ewwhite
소스

문제는 (a) OS 설치 후 오류가 감지 된 경우 (예 : 서버가 생산중인 경우) (b) 온라인으로 복구 할 수 없거나 실패한 구성 요소가 서버의 SPOF이고 (c) 서버가 SPOF 인 경우 다운 타임이 발생합니다 (즉시 또는 시스템 복구를 위해 중단 될 때). 결론을 방지하려면 조건 중 하나를 방지해야합니다. 나는 (a) 생산하기 전에 고장을 감지하여 가고 있었다. 보고 기능을 자세하게 설명해 주셔서 감사하지만 처음부터보고하지 않아도되기 때문에보고 기능을 사용하지 않으려 고합니다.

— Mark Wagner 1

진단을 실행하려면 서버가 유틸리티 또는 Intelligent Provisioning으로 POST 및 부팅 해야한다는 점을 고려하면 HP 진단 루프에서 아무것도 찾지 못할 것입니다 . 가장 일반적인 실패 항목은 매우 견고합니다. 디스크, 팬 및 전원 공급 장치는 핫 스왑 가능하며 RAM에는 ECC 임계 값이 있습니다. 이러한 구성 요소에서 오류를 유발하기 위해 수행 할 수있는 작업은 없습니다.

— ewwhite