MCE 메시지를 어떻게 해석합니까?


10

최근 /var/log/messages에 서버 중 하나에 최근에 나타난 많은 오류가 발견되었습니다 . 그러나 mce 클라이언트는 syslog의 디코딩 된 항목보다 오류 소스가 덜 확실한 것으로 보입니다. MCE 출력을 해석하는 데 사용할 일종의 키가 있습니까?

Nov 12 04:19:19 areion kernel: [14698753.176035] Machine check events logged
Nov 12 04:19:19 areion mcelog: HARDWARE ERROR. This is *NOT* a software problem!
Nov 12 04:19:19 areion mcelog: Please contact your hardware vendor
Nov 12 04:19:19 areion mcelog: MCE 0
Nov 12 04:19:19 areion mcelog: CPU 0 BANK 8
Nov 12 04:19:19 areion mcelog: MISC 640738dd0009159c ADDR 96236c6c0
Nov 12 04:19:19 areion mcelog: TIME 1352711959 Mon Nov 12 04:19:19 2012
Nov 12 04:19:19 areion mcelog: MCG status:
Nov 12 04:19:19 areion mcelog: MCi status:
Nov 12 04:19:19 areion mcelog: MCi_MISC register valid
Nov 12 04:19:19 areion mcelog: MCi_ADDR register valid
Nov 12 04:19:19 areion mcelog: MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR
Nov 12 04:19:19 areion mcelog: Transaction: Memory read error
Nov 12 04:19:19 areion mcelog: STATUS 8c0000400001009f MCGSTATUS 0
Nov 12 04:19:19 areion mcelog: MCGCAP 1c09 APICID 20 SOCKETID 1
Nov 12 04:19:19 areion mcelog: CPUID Vendor Intel Family 6 Model 44

모든 오류는 동일한 메모리 뱅크와 연결된 것으로 보입니다.

areion:~# awk -F'mcelog:' '/mcelog:.*BANK/{ print $2; }' < /var/log/messages |uniq
 CPU 0 BANK 8 

mcelog 데몬이 실행 중이며 오류 정보를 확인할 때 오류의 출처를 알지 못하는 것 같습니다. 그것들 만이 관련되어 있습니다 CPU0(이 상자에는 CPU가 하나만 있습니다) :

Memory errors
SOCKET 1 CHANNEL any DIMM any
corrected memory errors:
        77 total
        77 in 24h
uncorrected memory errors:
        0 total
        0 in 24h
Per page corrected memory statistics:
359ffc000: total 2 2 in 24h online

3b93cc000: total 2 2 in 24h online

3ce45c000: total 2 2 in 24h online

96236c000: total 20 20 in 24h online triggered

96545c000: total 9 9 in 24h online

96a82c000: total 9 9 in 24h online

96a8ec000: total 1 1 in 24h online

96fb6c000: total 15 15 in 24h online triggered

9c2edc000: total 15 15 in 24h online triggered

9c5eac000: total 1 1 in 24h online

9c6a1c000: total 1 1 in 24h online

이 정보를 어떻게 해석해야하는지 전혀 명확하지 않습니다. 한편으로 mce 클라이언트는 채널 또는 DIMM을 나타내지 않지만 디코딩 된 메시지는 DIMM 8에서 오류가 발생 dmesg했음을 나타냅니다. 42 개의 메시지 만 기록 된 것으로 나타납니다.

[14698753.176035] Machine check events logged
[14698753.629174] Machine check events logged
[14698815.338595] __ratelimit: 38 callbacks suppressed
[14698815.338628] Machine check events logged
[14698816.020797] Machine check events logged

나는 혼합 된 메시지를 받고있는 것처럼 보이며, 다양한 출처에서보고 된 정보를 기반으로 어떤 가정을 만들어야하는지 궁금해합니다.

기타 정보 :

areion:~# grep 'model name' /proc/cpuinfo |uniq
model name      : Intel(R) Xeon(R) CPU           X5670  @ 2.93GHz

areion:~# apt-cache policy mcelog |grep Installed
  Installed: 1.0~pre3-3

areion:~# lsb_release -a
No LSB modules are available.
Distributor ID: Debian
Description:    Debian GNU/Linux 6.0.6 (squeeze)
Release:        6.0.6
Codename:       squeeze

답변:


2

문제가있는 DIMM (CPU 0, SOCKET 8)을 교체하고 MCE 메시지가 계속 생성되는지 확인하려고 할 수 있습니다.

mcelog 패키지는 시간이 지남에 따라 발생하는 다양한 MCE 이벤트에 대한 몇 가지 기본 임계 값으로 구성되어 제공됩니다. /etc/mcelog/mcelog.conf자세한 내용을 확인 하십시오. 메모리 페이지 오류의 경우 임계 값은 24 시간 동안 10 개의 이벤트입니다. (이 번호가 어디에서 왔는지 확실하지 않지만 아마도 합리적인 기준점이 될 것입니다). 귀하의 게시물은 24 페이지에 걸쳐 전체 페이지에 대해 77 개의 수정 가능한 이벤트를 언급하므로 DIMM이 더 심각한 것으로 바뀌거나 그렇지 않을 수있는 문제가 발생했을 가능성이 큽니다.

다른 출처에서 일관성없는 정보를받는 것에 대해 너무 화 내지 않을 것입니다. 일반적으로 펌웨어 수준의 모든 것은 플랫폼에 따라 다릅니다 (즉, 특정 하드웨어 모델에 따라 다름). 펌웨어 관련 문제에 대한 저의 경험은 공급 업체 도구가 일반적으로 가장 정확하지만 사용이 가장 적다는 것입니다. 보다 일반적인 오픈 소스 도구는 작업하기가 쉽지만 진행 상황을 정확하게 표시하기에 충분한 정보를 제공하지 못할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.