어떤 메모리에 CE 오류가 있는지 어떻게 알 수 있습니까?


12

에서 /var/log/kern.log:

kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)

edac메모리 중 하나에 ce오류 가있는 로그 입니다.

edac doc 을 읽었습니다

Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:


            Channel 0   Channel 1
    ===================================
    csrow0  | DIMM_A0   | DIMM_B0 |
    csrow1  | DIMM_A0   | DIMM_B0 |
    ===================================

    ===================================
    csrow2  | DIMM_A1   | DIMM_B1 |
    csrow3  | DIMM_A1   | DIMM_B1 |
    ===================================

오류 채널을 찾으십시오.

$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0

그리고 mc0/csrow0/ch2문서처럼 DIMM은 다음 DIMM_C0과 같아야하며 다음 과 같이 찾을 수 있습니다 dmidecode.

그러나이 DIMM을 찾을 수 없으므로 어떤 메모리에 문제가 있는지 모르겠습니다.

$ dmidecode -t memory | grep 'Locator: PROC'
        Locator: PROC 1 DIMM 2A
        Locator: PROC 1 DIMM 1D
        Locator: PROC 1 DIMM 4B
        Locator: PROC 1 DIMM 3E
        Locator: PROC 1 DIMM 6C
        Locator: PROC 1 DIMM 5F
        Locator: PROC 2 DIMM 2A
        Locator: PROC 2 DIMM 1D
        Locator: PROC 2 DIMM 4B
        Locator: PROC 2 DIMM 3E
        Locator: PROC 2 DIMM 6C
        Locator: PROC 2 DIMM 5F

12 개의 슬롯이 있으며 9 개의 슬롯에는 메모리가 있습니다.

그렇다면 어떤 메모리에 문제가 있는지 어떻게 알 수 있습니까?


보충:

System Information
        Manufacturer: HP
        Product Name: ProLiant DL180 G6

어떤 서버 유형입니까? 서버 제조업체 및 모델.
ewwhite

@ewwhite, 안녕하세요, 시스템 정보로 질문을 업데이트했습니다.
Tanky Woo

어떤 운영 체제를 실행하고 있습니까?
ewwhite

@ewwhite OS는 Ubuntu 12.04, 커널은3.10.20
Tanky Woo

오, 미안 해요 ... 우분투 정말이 하드웨어에서 지원되지 않습니다 , 당신은 RHEL을 사용하지 않음으로써 제대로 모니터링 할 수있는 기능을 잃고 있도록 / CentOS는 / 데비안 / 수세 ...
ewwhite

답변:


8

문제의 DIMM 일 가능성이 있습니다- Locator: PROC 1 DIMM 5F

CPU # 0Channel # 2_DIMM # ​​0 은 다음을 의미합니다.

PROC 1, 
1D,2A = Channel 0  
3E,4B = Channel 1
5F,6C = Channel 2

5F = DIMM 0
6C = DIMM 1

편집하다:

질문을 할 때, 더 많은 정보가 항상 더 좋습니다. 서버 제조업체와 모델이이를 단순화하면 다음과 같습니다.

다음은 HP ProLiant DL180 G6 Quickspecs 의 메모리 다이어그램입니다 .

여기에 이미지 설명을 입력하십시오

CPU 슬롯 # 1의 DIMM이 올바르다는 제안입니다 ... 그러나 이것이 HP 하드웨어입니다. 당신은 추측 할 필요가 없습니다 !!

하드웨어 상태 및 상태에 대한 플랫폼 별 세부 정보를 경고하고 제공 할 수 있으므로 HP 관리 에이전트를 사용해야합니다.

[root@veloce ~]# hpasmcli
HP management CLI for Linux (v2.0)
Copyright 2008 Hewlett-Packard Development Group, L.P.

--------------------------------------------------------------------------
This server ProLiant DL180 G6  , is a Proliant 100 Series Server.
NOTE: Some hpasmcli commands may not be supported on 100 series servers.
      Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show dimm
Cartridge #:    0
Processor #:    1
Module #:       2
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       1
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       4
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       6
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

감사합니다. 관련 문서가 있습니까?
Tanky Woo

@TankyWoo 예, 위를 참조하십시오.
ewwhite

PROC1 DIMM 5F메모리가 없으므로 슬롯이 실제로 확인되지 않았습니까? hp deb 미러를 추가하고 hpamscli올바른 DIMM을 설치하려면 설치 해야합니까?
Tanky Woo

나는 설치해야 hp-health하고,이 Status입니다 N/A붙여 넣은 출력과 동일합니다.
Tanky Woo

hplog -vHP IML 로그에서 항목을 확인하려면 실행하십시오 .
ewwhite
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.