커널 : 저널 커밋 I / O 오류


9

Dell 1950 서버에 문제가 있습니다. 여기에 Oracle 및 기타 소프트웨어와 함께 RHEL 4.6을 설치하고 있습니다.

내 ssh 세션과 서버에서 "커널 : 저널 커밋 I / O 오류"라는 오류 메시지가 무작위로 표시됩니다. 서버에 연결된 모니터에서 "EXT3-fs error (device sda5) start_transaction에서 : 저널이 중단되었습니다. "

설치 중에 여러 번 발생했지만 같은 시점에 발생하지 않았습니다. 실제로, 지난번에 시스템이 가동되어 데이터베이스를 오라클로 가져 오려고했습니다.

이것은 여러 하드 드라이브에서 발생했기 때문에 문제가 아니라고 확신합니다. 이것은 레이드 컨트롤러가 나 빠지고 있다고 생각합니다.

너희들은 어떻게 생각하니?

** 업데이트 **

하드 드라이브가 나쁜 것 같습니다. 서버에 다른 드라이브를 넣었고 문제없이 약 48 시간 동안 실행되었습니다.

답변:


9

이전에 이러한 오류를 보았지만 설치 프로세스 중에는 아닙니다.

즉, OS에서 드라이브를 읽기 전용 모드로 전환하는 데 충분한 오류가 발생했음을 의미합니다. 전체 로그를 찾을 수있는 경우, 전체 실패 오류 전에 재 시도하고 작동 한 일부 I / O 오류가있을 수 있습니다. 실제 블록이 언급 된 것.

스토리지 시스템 오류입니다. RAID 카드, RAID 배열의 드라이브, 카드에서 드라이브로의 케이블, 드라이브가 연결된 후면 판, RAID 카드가 연결된 슬롯, 하드 드라이브의 전원 공급 장치 또는 그 밖의 것입니다. CPU와 실제 스토리지 블록 사이.


2

세 가지 가능성이 떠 오릅니다.

  1. 메모리 문제가 있습니다 (자주 "랜덤"충돌이 발생 함). ECC 램이 있다면 분명히 가능성이 적습니다.

  2. 버스에 문제가 있습니다. 몇 년 전 Tyan 이중 Opteron 마더 보드의 APIC 컨트롤러가 고장났다는 동일한 문제가있었습니다. 암시 한 다른 로그 항목이 있었지만 대부분의 증상은 자동 읽기 전용 다시 마운트를 사용하는 디스크 드라이브에서 무작위로 손상되었습니다. 제 경우에는 외부 FC RAID 상자이기 때문에 디스크와 관련이 없다는 것을 알았습니다.

  3. RAID 컨트롤러가 이층입니다.

이것은 문제를 고려한 순서입니다.


아마도 메모리 문제가 아닙니다. 이는 스토리지에만 국한되지 않고 segfault 및 더 많은 임의의 오류를 유발할 가능성이 높습니다.
freiheit 2016 년

진실. 그러나 설치 또는 초기 부팅 상황에서 대량의 메모리 사용은 버퍼 캐시이므로 문제가 먼저 나타나는 경향이 있습니다. 머신이 얼마 동안로드되면 사용자 프로세스가 메모리 I / O를 지배하므로 segfault의 보급률이 높아집니다. PE1950에는 Xeon 프로세서와 ECC 램이 있어야 RAM이이를 감지하고이를 Linux에보고 할 수 있어야합니다.
Alexandre Carmel-Veilleux

2

당신이 말한 것처럼 RAID 컨트롤러가 잘못 될 수 있습니다 (예비가있는 경우 예비 시도). 컨트롤러 용 드라이버 일 수 있습니다 (가능한 경우 대체 드라이버가 있는지 확인하십시오. .) 커널 일 수 있습니다 (RHEL에서는 거의 테스트되지 않았습니다). 블록 캐시를 엉망으로 만드는 RAM이 불량 할 수 있습니다.

그러나 임의의 오류 동작으로 인해 하드웨어 문제가 발생했을 가능성이 높습니다.


2

디스크가 꽉 차지 않았는지 확인하십시오 (특히 루트 파티션). df를 사용하여 파일 시스템 디스크 사용량을 확인하십시오.

df -h

사용률이 100 % 이상인 파티션을 찾으십시오.


-5

시험:

지금 shutdown -rF

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.