서버 하드웨어에 따라 다릅니다. 화이트 박스 또는 Supermicro 시스템은 Dell, HP 또는 IBM과 다르게 처리합니다.
고급 서버의 부가 가치 기능 중 하나는 하드웨어 / OS 통합 수준이 있다는 것입니다. Niceer 서버는 관리 에이전트 및 / 또는 대역 외 관리 솔루션 (ILO, DRAC, IPMI)의 일부로 원하는 것을보고합니다.
하드웨어 플랫폼 고유의 도구를 사용해야합니다.
Linux 및 HP 관리 에이전트를 실행하는 HP ProLiant 서버에서 발췌 :
Trap-ID=6056
ECC Memory Correctable Errors detected.
과
Trap-ID=6052
Advanced ECC Memory Engaged
또는 더 심한
Trap-ID=6029
A correctable memory log entry indicates a memory module needs to be
replaced.
또는 최악의 ... 잘못된 RAM으로 인해 서버가 충돌 할 때까지 6 일 동안 오류 무시
0004 Repaired 22:21 12/01/2008 22:21 12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)
0007 Repaired 02:58 12/07/2008 02:58 12/07/2008 0001
LOG: POST Error: 201-Memory Error Single-bit error occured during
memory initialization,
Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.
0008 Repaired 19:31 12/08/2009 19:31 12/08/2009 0001
LOG: ASR Detected by System ROM
이것들은 기록되었고 SNMP 트랩과 이메일이 전송되었습니다.
일반적으로 커널 링 버퍼에 Machine Check Exceptions가 표시되므로 mcelog를 확인 dmesg
하거나 실행할 수 있습니다 . IPMI가없는 Supermicro 장비에 대한 경험에서 모든 것을 포착하지 못했지만 여전히 균열을 통해 RAM 오류가 발생하여 중단이 발생했습니다. 불행히도 이로 인해 시스템 배포 전에 고풍스러운 RAM 번인 정책이 발생했습니다.