HP 서버의 자동화 된 하드웨어 테스트?


9

프로비저닝 서버의 일부로 HP의 Insight Diagnostics를 실행하여 하드웨어를 테스트합니다. 이것은 수동 프로세스입니다. Insight Diagnostics 실행을 자동화하는 방법이 있습니까?

"-rd :" "모든 진단 가능한 장치의 진단을 실행하십시오"옵션이있는 hpdiags 소프트웨어가 있습니다. 내 테스트에서 이것은별로하지 않습니다 (디스크에서 SMART 정보를 읽습니다). 누구든지 그것에 대해 더 나은 운이 있었습니까?

하드웨어 : HP ProLiant BL460c 블레이드가 장착 된 BladeCenter c7000, DL360.

운영체제 : ESXi and Ubuntu.


2
짧은 대답은 큰 환경 에서이 작업을 방해하지 않는다는 것입니다. 모니터링 및 온보드 진단으로 충분합니다. 그러나 사용중인 서버 모델에 대한 정보를 제공 할 수 있습니까? 그리고 아마도 운영 체제가 관련되었을 수 있습니다.
ewwhite

요청한 정보로 티켓을 업데이트했습니다.
Mark Wagner

HP 특정 버전의 ESXi를 설치하고 있습니까? Ubuntu 시스템에 HP Management Agent를 설치하고 있습니까? 서버는 어떤 세대입니까? G6? G7? Gen8?
ewwhite

HP 관리 에이전트는 ESXi 및 Ubuntu에 모두 설치되어 있습니다. 서버는 Gen8이며 Gen9가됩니다.
Mark Wagner

8
I updated the ticket with the requested info-저를 웃게 만들었습니다. 이것은 헬프 데스크가 아닙니다.
joeqwerty

답변:


8

그래서 다른 질문을하겠습니다.

프로비저닝하기 전에 서버에서 HP Insight 하드웨어 진단을 실행해야하는 이유는 무엇입니까?

위의 의견에서, 나는 큰 HP ProLiant 환경에서 이것을 선제 적으로 수행함으로써 얻는 것이 거의 없다고 지적했습니다. 나는 그것에 대한 내 생각을 분명히해야합니다 ...

내림차순으로 일반적으로 발생하는 문제 유형을 살펴 보겠습니다.

  • 스토리지 배열 및 디스크 : RAID 컨트롤러는 OS, 로그, SNMP, 이메일, ILO에보고 하고 예쁜 표시등 을 켜서 상태를 나타냅니다.

  • RAM : POST 프로세스는 시스템 상태뿐만 아니라 OS, 로그, SNMP, 이메일, ILO에보고하고 전면 패널 SID (Systems Insight Display) 의 LED 표시등을 켜면서 RAM 상태를 감지 합니다. 또한 이러한 시스템의 오류 감지가 이미 강력하기 때문에 RAM 번인 프로세스 의 팬이 아닙니다 .

  • 열 및 팬 : 서버 온도 및 팬 속도는 ILO에 의해 규제됩니다. 이 시스템에는 30 개 이상의 온도 센서가 있으므로 냉각 시스템이 매우 효율적입니다. 이것은 여전히 ​​OS, 로그, SNMP, 이메일 및 SID에보고합니다.

  • 전원 공급 장치 : PSU 상태는 실제 전원 공급 장치의 실제 표시등뿐만 아니라 OS, 로그, SNMP, 전자 메일 및 SID에보고됩니다.

  • 전반적인 건강 : 이것은 내부 건강 및 외부 건강 LED와 함께 SID 디스플레이로 한 눈에 쉽게 평가할 수 있습니다. 이것은 서버의 로그, SNMP, 이메일 및 ILO에도보고됩니다.

여기에 이미지 설명을 입력하십시오

사전 배포에서 발견되거나 런타임 또는 사후 OS 설치 중에보고되지 않은 조건은 생각할 수 없습니다.

진단 루프는 일반적으로 명백한 사전 문제없이 시스템에서 실행될 때 아무것도 찾지 않습니다. 유틸리티를 실행하려면 서버가 유틸리티 또는 Intelligent Provisioning 펌웨어로 POST 및 부팅해야하기 때문입니다.

다시 말해서, 서버에 심각한 "SPOF"가되는 항목은 시스템이 자체 진단을 실행하지 못하게 할 수 있습니다.

가장 일반적인 고장 항목은 여전히 ​​상당히 견고합니다. 디스크는 RAID에 있어야하며 핫 스왑 가능해야합니다. 팬 및 전원 공급 장치도 핫 스왑 가능합니다. RAM에 ECC 임계 값이 있으며 대부분의 ProLiant 플랫폼에 대한 온라인 스페어 옵션이 있습니다. 진단 프로그램을 실행하여 이러한 구성 요소의 고장을 유발하기 위해 할 수있는 일은 없습니다. 내부 중복성이있는 HP C7000 블레이드 인클로저를 사용하고 있으며 실패 발생률이 매우 낮다 는 사실을 추가하십시오 .


문제는 (a) OS 설치 후 오류가 감지 된 경우 (예 : 서버가 생산중인 경우) (b) 온라인으로 복구 할 수 없거나 실패한 구성 요소가 서버의 SPOF이고 (c) 서버가 SPOF 인 경우 다운 타임이 발생합니다 (즉시 또는 시스템 복구를 위해 중단 될 때). 결론을 방지하려면 조건 중 하나를 방지해야합니다. 나는 (a) 생산하기 전에 고장을 감지하여 가고 있었다. 보고 기능을 자세하게 설명해 주셔서 감사하지만 처음부터보고하지 않아도되기 때문에보고 기능을 사용하지 않으려 고합니다.
Mark Wagner 1

진단을 실행하려면 서버가 유틸리티 또는 Intelligent Provisioning으로 POST 및 부팅 해야한다는 점을 고려하면 HP 진단 루프에서 아무것도 찾지 못할 것입니다 . 가장 일반적인 실패 항목은 매우 견고합니다. 디스크, 팬 및 전원 공급 장치는 핫 스왑 가능하며 RAM에는 ECC 임계 값이 있습니다. 이러한 구성 요소에서 오류를 유발하기 위해 수행 할 수있는 작업은 없습니다.
ewwhite
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.