APEI 일반 하드웨어 오류


9

지난 주 동안 내 서버 (Debian Jessie 실행)가 두 번 재부팅되었습니다. syslog에서 나는 매번 재부팅하기 전에 이것을 보았습니다.

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

일부 인터넷 검색은 ECC RAM이 오류를 감지하고 복구하는 것과 관련이 있다고 생각합니다. 이 올바른지? 복구중인 경우 왜 시스템이 재부팅됩니까? 가능한 경우 시스템이 재부팅되지 않도록하고 싶습니다.

답변:


9

RAM에 오류가 있거나 수정중인 오류가있는 것 같습니다. 심각도에 따라 이러한 오류가 작동하는 데 영향을 미치고 나중에 다시 부팅해야하는 것처럼 들립니다.

이 스레드의 모양에서 오류 섹션 길이가 너무 작다는 메시지 비트의 끝이 범인 일 수 있습니다.

발췌- [PATCH 1/1] efi : cper : 다른 길이의 오류 섹션 지원

일부 필드는 최신 UEFI 사양의 오류 섹션에 추가 될 수 있습니다. 예를 들어, '예약 됨', '순위 번호', '카드 핸들'및 '모듈 핸들'필드는 UEFI 사양 2.3에서 시작된 메모리 오류 섹션에 추가됩니다. 불행히도, 메모리 수정 오류가 감지되고 struct acpi_generic_data의 'revision'필드가 0x203보다 작 으면 다음과 같은 경고 메시지가 나타납니다 (UEFI spec 2.3).

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

이 문제는이 수정 된 오류를 올바르게 표시 할 수 없습니다. 이 문제를 해결하기 위해이 패치는 다른 UEFI 사양 버전에 대해 다른 길이의 오류 섹션을 지원합니다.

또한이 패치는 사전 정의 된 구조를 사용하여 cper_estatus_print_section 함수에서 중복 된 코드를 정리합니다.

이 패치를 적용하면 오류를 주입 한 후 메모리 수정 오류가 올바르게 표시 될 수 있습니다.

Grantley 플랫폼 및 Intel RAStool을 사용하여 v3.14-rc5에서 테스트되었습니다.

따라서 특정 오류에 대한 패치가 작동하는 것으로 보이며 최신 버전의 커널에서 사용할 수 있습니다.


3

참고로 나는 이와 비슷한 문제가있는 것으로 보입니다.

솔루션이 메모리를 꺼내고 다시 장착하는 것으로 나타 났으며 모든 것이 정상으로 돌아 왔습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.