50 개의 SuperMicro 컴퓨터에서 BSOD 0x09c


8

프로젝트의 경우 50 개의 서버에 모두 동일한 하드웨어가 장착되어 있습니다. 우리가 가진 문제는 매우 심각하며 모든 컴퓨터에서 발생합니다. 많은 노력과 제조업 자와의 접촉에도 불구하고 모든 개발자는 서로를 가리키며 어떤 일이 일어나고 있는지에 대한 단서를 제공하지 않습니다.

먼저 설정을 설명하겠습니다. 이것은 '서버급'하드웨어입니다. 첫 경험으로 서버 그레이드는 제 인생에서 가장 큰 실망입니다.

  • 슈퍼 마이크로 X10SDV-8C + -LN2F
  • Intel Xeon D-1540 (마더 보드에 내장되어 있음)
  • 맞춤형 1U 케이스 또는 SuperMicro 오리지널 케이스
  • 480 와트 서버 PSU 또는 200 와트 SuperMicro 오리지널 PSU
  • 삼성 Evo 850500GB SSD
  • 32GB DDR4-2133 ECC 또는 NON-ECC (동일한 서버에서 혼합되지는 않음)
  • 아수스 GT730 4GB DDR3 GPU
  • GPU는 PCIe 라이저 카드 (리본이 아님), 즉 중국 또는 SuperMicro 오리지널에서 장착

시스템에서 실행-Windows Server 2012 R2 Enterprise-VMWare Workstation 12-VM에서 GPU 집중 작업 실행

증상-임의 BSOD 0x09c (일명 Machine_Check_Exception) : 때때로 시스템이 문제없이 1 주일 동안 실행되고 때로는 10 분 후에 충돌이 발생하지만 대부분 몇 시간 동안 실행됩니다.

이미 시도 / 확인했습니다 :

  • BIOS가 최신 버전으로 업데이트되었습니다 (이것으로 인해 시스템이 안정적으로 유지되는 시간이 개선되었지만 임의적 일 수 있다고 생각합니다).
  • Windows가 최신 버전으로 업데이트되었습니다.
  • VMWare가 최신 버전으로 업데이트되었습니다.
  • 모든 구성 요소를 교체하고 다양한 옵션을 시도했으며 데스크탑 ATX PSU 및 M.2 SSD도 시도했습니다.
  • Ubuntu를 사용하여 모든 시스템을 처음부터 설치했습니다. 나는 Linux에 익숙하지 않고 Linux BSOD를 본 적이 없으며 서버 시스템이 헤드리스이므로 DC에서 이것을 시도한 후에도 아직 없었습니다. 결과 : 시스템이 중단되고 재부팅 후 Linux에서 XORG 충돌 (GPU 관련)을보고했습니다.
  • BIOS에서 GPU 설정을 'Above 4G'로 변경하면 나머지 BIOS가 공장 기본값입니다.

유익한 정보 :

  • 시스템은 데이터 센터에 있습니다. 온도, 공기, 전력 및 네트워크가 최적입니다.
  • 온도가 공장 최대 값보다 훨씬 낮습니다.
  • 우리는 데스크톱 컴퓨터 (데스크탑 하드웨어 사용)에서 실행 되는 것과 동일한 소프트웨어 설정을 가지고 있습니다 . 이 시스템은 매월 100 대의 PC가 충돌하는 상황에서 정상적으로 실행될 수 있습니다.
  • VMWare에 연락했는데 하드웨어 문제라고 말합니다.
  • 나는 SuperMicro에 연락을 취했는데 실제로 말한 것 외에는 아무것도 시도하지 않았으며 이미 시도했지만 여전히 소프트웨어 문제 일 수 있습니다.

우리는 여기에 필사적입니다. 운 좋게 실행되는 응용 프로그램은 일종의 중복입니다. 서버와 VM이 중단되면 문제가되지 않습니다. 다른 서버는 5 분 이내에로드를 인계하지만이 속도로 서버를 다시 시작하려면 하루 종일 온라인 상태 여야합니다.

나는 큰 하드웨어 지식을 가지고 있지만 이것이지나갑니다. 나는 한 달 동안 하루 종일 모든 종류의 다른 것을 시도해 보았습니다. 이러한 마더 보드가 대규모 호스팅 제공 업체와 함께 사용된다는 사실 때문에 보드 자체가 문제가없는 것 같습니다. 모든 50 개의 보드가 동일한 증상을 나타내므로 RMA의 특정 하드웨어 문제는 아닙니다. 우리와 다른 점은 GPU입니다. 이것은 Linux 실험과 결합하여 이것이 PCIe 레인에있는 것으로 의심됩니다. GPU 자체는 데스크탑 모보에서 안정적입니다. 큰 메모리 용량에도 불구하고 이것은 많은 전력을 소비하지 않는 작은 GPU입니다. 나는 중국 라이저 카드를 의심하지만 SuperMicro 인증 라이저도 사용하지만 전혀 개선되지 않습니다.

여기에서 해결책을 찾는 것이 절실합니다. 이것은 정확한 원인을 결정하는 것으로 시작됩니다. 우리는 일부 덤프를 분석하고 더 자세한 정보를 제공 할 수있는 전문가에게 좋은 현상금을 기꺼이 지불합니다.

친절하다,

시몬


나는이 게시판에 익숙하다. 나는 스스로 하나를 가지고있다. 여기에 움직이는 부분이 너무 많고 그것들에 대한 설명이 너무 적다. VMware Workstation의 용도는 무엇입니까? 어떤 응용 프로그램이 실행되고 있습니까? GPU는 어떻게 VM으로 전달됩니까?
Michael Hampton

VM은 GPU 부하가 필요한 Windows 회사를 운영합니다. 나는 이것을 더 자세히 설명 할 수 없다. 이것은 VMWare Workstation이며 GPU가 가상화됩니다. 이것은 또한 중요하지 않으며 문제없이 데스크탑 하드웨어에서 정확히 동일하게 작동합니다.
user349749

데스크탑 하드웨어에서 실행 하지 않기 때문에 중요 합니다!
Michael Hampton

2
마더 보드와 GPU가 호환되지 않는 것 같습니다. 운이 좋으면 BIOS에서 수정할 수있는 것일 수도 있지만 그다지 내기하지는 않을 것입니다. 이것은 주식 리눅스 커널로 생식 할 수 있기 때문에 아마도 일어날 수있는 커널 패닉에 대한 더 많은 정보를 얻으려고 노력할 것입니다.
법률 29

VM 내에서 실행되는 것은 중요하지 않습니다. 포르노 렌더링 일 수도 있고, 치료법을 찾는 것이 대수 일 수도 있습니다. 중요한 것은 표준 GPU 부하입니다. @ 법 29; 그게 내가 느끼는 방식입니다. 리눅스는 실제로 내가 생각하는 커널 패닉을주지 않았다. 서버는 충돌하지 않았으며 GUI 만있었습니다.
user349749

답변:


2

글쎄, 이것은 늦었습니다.이 시점에서 문제가 해결되었다고 생각합니까? 0x9C는 일반적으로 MCE 하드웨어 결함을 의미합니다. GPU 시스템은 Linux를 호스트 운영 체제로 실행하여 Windows보다 이러한 오류를 조금 더 자세하게보고합니다.

어쨌든, 이들은 HP가 만든 비슷한 하드웨어에서 무작위로 갑자기 나타났습니다 .GPU에 전력 공급이 불충분했습니다. 특히 PCIe 포트 자체에서 공급해야하는 75W.

우리는이를 PCIe 브레이크 아웃 보드의 멀티 미터로 확인했습니다. GPU와 10Gbe 네트워크 카드가 동시에 강하게 닿으면 전압이 떨어졌습니다. 마더 보드는 x16 슬롯에 75W를 공급할 수 있었지만 다른 카드가 모두 전력을 소비 할 때 전력 공급 부분이 약간 어려움을 겪었습니다.

여기에서 라이저가 의심되어 고전류 부하에서 전압이 떨어질 수 있습니다.


0

답장을 보내 주셔서 감사합니다. 이제 3 년이 지났습니다. Supermicro는 가능한 모든 방법으로 우리를 돕기를 거부했습니다. 우리는 여러 기계를 보냈습니다 (정확히 우리가 만든대로). 그들에 따르면 그들은 몇 주 동안 스트레스를 받았으며 결코 추락하지 않았습니다.

라이저는 슬롯에서 GPU와 동일한 오류가 발생합니다.

Supermicro는 VMWare에 책임을 물고 있습니다. VMWare는 같은 보드의 새 릴리스에 손을 댈 때까지 믿게되었던 것입니다. Supermicro의 의견없이 Xeon D-1540이 장착 된 보드는 몇 달 후 Xeon D-1541로 업데이트되었습니다. 새로운 보드는 기본적으로 새로운 CPU와 동일하며 약간 높은 클럭 속도와 동일합니다. 업데이트 된 보드에는 기능과 추가 팬 헤더도 있습니다.

이 보드는 더 이상 충돌하지 않습니다. 정확히 같은 하중에서 몇 달 동안 아무런 문제없이 작동합니다. 나는 여기에서 머신을 복제했고, 충돌하는 머신의 정확한 하드웨어와 소프트웨어를 실행했습니다.

이런 종류의 내 의심을 확인합니다. Supermicro는 보드에 문제가 있다는 것을 알고 있지만 충돌로 인해 거의 100 개의 보드가 쓸모 없게 된 이유를 말하고 싶지 않습니다. 그들은 결코 RMA이거나 BIOS 업데이트조차하지 않았으므로 보드에 무언가 있어야합니다.

말할 것도없이, 이것은 Supermicro와 함께 처음이자 마지막이었습니다. 이것은 모든 브랜드에서 일어날 수 있지만 지원은 제로 이하였습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.