"전원 및 열 보정"화면에서 HP ProLiant DL360 G7이 멈춤


41

재현하기 어려운 문제를 나타내는 새로운 HP ProLiant DL360 G7 시스템이 있습니다. POST 프로세스 중에 " 전원 및 열 교정 진행 중 ... " 화면 에서 서버가 임의로 정지 됩니다 . 이것은 일반적으로 설치된 운영 체제에서 웜 부팅 / 재부팅을 따릅니다.

여기에 이미지 설명을 입력하십시오

이 시점에서 시스템이 무한정 정지합니다. ILO 3 전원 제어를 통해 재설정 또는 콜드 스타트를 실행하면 시스템이 정상적으로 부팅되지 않습니다.

시스템이이 상태에 있으면 ILO 3 인터페이스에 액세스 할 수 있으며 모든 시스템 상태 표시기가 정상입니다 (모두 녹색). 서버는 PDU에 전원이 연결된 기후 제어 데이터 센터에 있습니다. 주변 온도는 64 ° F / 17 ° C입니다. 시스템은 고장없이 배치하기 전에 24 시간 구성 요소 테스트 루프에 배치되었습니다.

이 서버의 기본 운영 체제는 VMWare ESXi 5입니다. 처음에는 5.0 이상 5.1 빌드를 시도했습니다. 둘 다 PXE 부팅 및 킥 스타트를 통해 배포되었습니다. 또한 베어 메탈 Windows 및 Red Hat Linux 설치로 테스트하고 있습니다.

HP ProLiant 시스템에는 포괄적 인 BIOS 옵션 세트가 있습니다. 정적 고성능 프로필 외에도 기본 설정을 시도했습니다. 부팅 스플래시 화면을 비활성화하고 위의 스크린 샷과 비교하여 그 시점에서 깜박이는 커서가 나타납니다. 또한 BIOS 구성을 위한 몇 가지 VMWare "모범 사례"를 시도했습니다 . 우리는 비슷한 문제를 설명하는 것처럼 보이는 HP권고를 보았지만 특정 문제를 해결하지는 못했습니다.

하드웨어 문제가 의심되면 공급 업체가 당일 배송을 위해 동일한 시스템을 보내도록했습니다. 새로운 서버는 디스크를 제외하고 완전히 동일한 빌드였습니다. 디스크를 이전 서버에서 새 서버로 옮겼습니다. 교체 하드웨어에서 동일한 무작위 부팅 문제가 발생했습니다.

이제 두 서버가 동시에 실행 중입니다. 웜 부팅시이 문제가 임의로 발생합니다. 콜드 부츠에는 문제가없는 것 같습니다. Turbo Boost 비활성화 또는 전원 보정 기능 비활성화와 같은 좀 더 난해한 BIOS 설정을 살펴보고 있습니다. 나는 이것들을 시도 할 수 있지만 필요하지 않아야합니다.

이견있는 사람?

--편집하다--

시스템 정보 :

  • DL360 G7-2 x X5670 육각 코어 CPU
  • 96GB RAM (12 x 8GB 저전압 DIMM)
  • 2 x 146GB 15k SAS 하드 드라이브
  • 750W 이중화 전원 공급 장치 2 개

ProLiant DVD 릴리즈 용 최신 HP 서비스 팩을 기준으로 최신의 모든 펌웨어.

HP에 전화를 걸고 interwebz를 트롤링 할 때 ILO 3 상호 작용이 잘못되었다는 언급을 보았지만 실제 콘솔의 서버에서도 마찬가지입니다. HP는 또한 전원을 제안했지만 다른 생산 시스템에 성공적으로 전원을 공급하는 데이터 센터 랙에 있습니다.

저전압 DIMM과 750W 전원 공급 장치 간의 상호 작용이 좋지 않을 수 있습니까? 이 서버 지원되는 구성 이어야 합니다.


2
가능한 원인으로 디스크를 제거 할 수있는 방법이 있습니까? 대체 SAS 또는 SATA 디스크로 테스트 할 수 있습니까?
ErnieTheGeek

그렇습니다. 두 번째 시스템의 정상 디스크 세트로 테스트했습니다. 그들은 병렬로 실행 중입니다.
ewwhite

1
내가 본 유일한 시간은 HP가 아닌 카드를 사용하여 스토리지를 제공하려는 시스템 (DL360 G7)뿐이었습니다. SmartArray 카드와 다른 카드를 모두 가지고 있었을 때 그렇게했습니다. 내가 어느 쪽을 꺼냈을 때 그것은지나 갔다. 이것은 당신의 문제는 아니지만, 내가 겪은 것을 전달합니다.
sysadmin1138

1
네트워크와 관련이 있습니까? 네트워크에 연결하지 않고 복제하십시오.
ErnieTheGeek

1
@TheCleaner G7 서버에서는 Dynamic Power Capping 비활성화가 옵션이 아닙니다. Gen8 ProLiant 시리즈 용으로 소개되었습니다.
ewwhite

답변:


43

따라서 세 번째 시스템을 혼합하여 사용하면서 동일한 문제가 발생하면 환경에 의문을 가지기 시작했습니다. 나는 사본 발굴 HP ProLiant 서버 문제 해결 설명서를 하고 POST 문제는 다음과 같이 플로차트 발견했다.

여기에 이미지 설명을 입력하십시오

차트의 단계를주의 깊게 실행하면서 모든 서버의 상수는 데이터 센터 크래시 카트에 연결된 KVM 스위치라는 것을 알았습니다. 이것은 소비자 용 USB 지원 KVM이었습니다. 플로우 차트에서 강조 표시된 노드에 따라 올바른 KVM을 알고 있습니까? 나는 결정적으로 대답 할 수 없었다.

따라서 KVM 스위치에서 서버의 플러그를 뽑고 sleep 300; reboot순서에 따라 자동 부팅을 실행 했습니다 rc.local. 일반적인 DIMM, 저전압 DIMM, PSU 와트 수 등에 관계없이 서버에는 아무런 문제가 없었습니다.

이것은 모두 USB KVM 스위치와의 상호 작용이 불량한 결과였습니다. 이것이 콘솔이기 때문에, 우리가 그것을 찾고 있다면 실패를 보게 될 것입니다. 자기 충족 ...


2
와우, 그것은 좋은 것입니다! 다행 이네요
nedm

7
이런 까마귀. 질문과 답변 +1 잘 했어; 아마 간과했을 것입니다. "알아요"? 물론 잘 알려져 있습니다. 작동하지 않습니까?
mfinni

대단히 감사합니다 !!! 확실히 KVM이었습니다. 비디오 연결을 끊고 모니터를 직접 연결하면 서버가 원활하게 다시 실행됩니다. OS 가로 드 된 후 KVM을 다시 연결했습니다. 서버 후면의 케이블을 실수로 만졌을 때 문제가 발생했다고 생각합니다. 시스템이 중지되었고이 조언에만 반응합니다.

1
KVM이 어떻게 이런 일을 일으키는 지 아십니까?
TheLQ

@TheLQ 저렴한 소비자 수준의 KVM 장치가 그 원인이었습니다. 키보드에 문제가있을 수도 있습니다.
ewwhite 2016
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.