프로젝트의 경우 50 개의 서버에 모두 동일한 하드웨어가 장착되어 있습니다. 우리가 가진 문제는 매우 심각하며 모든 컴퓨터에서 발생합니다. 많은 노력과 제조업 자와의 접촉에도 불구하고 모든 개발자는 서로를 가리키며 어떤 일이 일어나고 있는지에 대한 단서를 제공하지 않습니다.
먼저 설정을 설명하겠습니다. 이것은 '서버급'하드웨어입니다. 첫 경험으로 서버 그레이드는 제 인생에서 가장 큰 실망입니다.
- 슈퍼 마이크로 X10SDV-8C + -LN2F
- Intel Xeon D-1540 (마더 보드에 내장되어 있음)
- 맞춤형 1U 케이스 또는 SuperMicro 오리지널 케이스
- 480 와트 서버 PSU 또는 200 와트 SuperMicro 오리지널 PSU
- 삼성 Evo 850500GB SSD
- 32GB DDR4-2133 ECC 또는 NON-ECC (동일한 서버에서 혼합되지는 않음)
- 아수스 GT730 4GB DDR3 GPU
- GPU는 PCIe 라이저 카드 (리본이 아님), 즉 중국 또는 SuperMicro 오리지널에서 장착
시스템에서 실행-Windows Server 2012 R2 Enterprise-VMWare Workstation 12-VM에서 GPU 집중 작업 실행
증상-임의 BSOD 0x09c (일명 Machine_Check_Exception) : 때때로 시스템이 문제없이 1 주일 동안 실행되고 때로는 10 분 후에 충돌이 발생하지만 대부분 몇 시간 동안 실행됩니다.
이미 시도 / 확인했습니다 :
- BIOS가 최신 버전으로 업데이트되었습니다 (이것으로 인해 시스템이 안정적으로 유지되는 시간이 개선되었지만 임의적 일 수 있다고 생각합니다).
- Windows가 최신 버전으로 업데이트되었습니다.
- VMWare가 최신 버전으로 업데이트되었습니다.
- 모든 구성 요소를 교체하고 다양한 옵션을 시도했으며 데스크탑 ATX PSU 및 M.2 SSD도 시도했습니다.
- Ubuntu를 사용하여 모든 시스템을 처음부터 설치했습니다. 나는 Linux에 익숙하지 않고 Linux BSOD를 본 적이 없으며 서버 시스템이 헤드리스이므로 DC에서 이것을 시도한 후에도 아직 없었습니다. 결과 : 시스템이 중단되고 재부팅 후 Linux에서 XORG 충돌 (GPU 관련)을보고했습니다.
- BIOS에서 GPU 설정을 'Above 4G'로 변경하면 나머지 BIOS가 공장 기본값입니다.
유익한 정보 :
- 시스템은 데이터 센터에 있습니다. 온도, 공기, 전력 및 네트워크가 최적입니다.
- 온도가 공장 최대 값보다 훨씬 낮습니다.
- 우리는 데스크톱 컴퓨터 (데스크탑 하드웨어 사용)에서 실행 되는 것과 동일한 소프트웨어 설정을 가지고 있습니다 . 이 시스템은 매월 100 대의 PC가 충돌하는 상황에서 정상적으로 실행될 수 있습니다.
- VMWare에 연락했는데 하드웨어 문제라고 말합니다.
- 나는 SuperMicro에 연락을 취했는데 실제로 말한 것 외에는 아무것도 시도하지 않았으며 이미 시도했지만 여전히 소프트웨어 문제 일 수 있습니다.
우리는 여기에 필사적입니다. 운 좋게 실행되는 응용 프로그램은 일종의 중복입니다. 서버와 VM이 중단되면 문제가되지 않습니다. 다른 서버는 5 분 이내에로드를 인계하지만이 속도로 서버를 다시 시작하려면 하루 종일 온라인 상태 여야합니다.
나는 큰 하드웨어 지식을 가지고 있지만 이것이지나갑니다. 나는 한 달 동안 하루 종일 모든 종류의 다른 것을 시도해 보았습니다. 이러한 마더 보드가 대규모 호스팅 제공 업체와 함께 사용된다는 사실 때문에 보드 자체가 문제가없는 것 같습니다. 모든 50 개의 보드가 동일한 증상을 나타내므로 RMA의 특정 하드웨어 문제는 아닙니다. 우리와 다른 점은 GPU입니다. 이것은 Linux 실험과 결합하여 이것이 PCIe 레인에있는 것으로 의심됩니다. GPU 자체는 데스크탑 모보에서 안정적입니다. 큰 메모리 용량에도 불구하고 이것은 많은 전력을 소비하지 않는 작은 GPU입니다. 나는 중국 라이저 카드를 의심하지만 SuperMicro 인증 라이저도 사용하지만 전혀 개선되지 않습니다.
여기에서 해결책을 찾는 것이 절실합니다. 이것은 정확한 원인을 결정하는 것으로 시작됩니다. 우리는 일부 덤프를 분석하고 더 자세한 정보를 제공 할 수있는 전문가에게 좋은 현상금을 기꺼이 지불합니다.
친절하다,
시몬