시스템 충돌 원인을 확인하는 방법은 무엇입니까?


10

내 서버는 일주일에 한 번 정도 충돌하며 서버의 원인에 대한 어떠한 단서도 남기지 않습니다. 확인 /var/log/messages했는데 하드 포인트를 기록하는 것을 멈추고 하드 재부팅을 수행 할 때 컴퓨터 게시물 정보에서 시작합니다.

원인을 확인할 수있는 확인 가능한 소프트웨어 나 설치할 수있는 것이 있습니까?

CentOS 7을 실행하고 있습니다.

내 유일한 오류 / 문제는 다음과 같습니다 /var/log/dmesg. https://paste.netcoding.net/cosisiloji.log

[    3.606936] md: Waiting for all devices to be available before autodetect
[    3.606984] md: If you don't use raid, use raid=noautodetect
[    3.607085] md: Autodetecting RAID arrays.
[    3.608309] md: Scanned 6 and added 6 devices.
[    3.608362] md: autorun ...
[    3.608412] md: considering sdc2 ...
[    3.608464] md:  adding sdc2 ...
[    3.608516] md: sdc1 has different UUID to sdc2
[    3.608570] md:  adding sdb2 ...
[    3.608620] md: sdb1 has different UUID to sdc2
[    3.608674] md:  adding sda2 ...
[    3.608726] md: sda1 has different UUID to sdc2
[    3.608944] md: created md2
[    3.608997] md: bind<sda2>
[    3.609058] md: bind<sdb2>
[    3.609116] md: bind<sdc2>
[    3.609175] md: running: <sdc2><sdb2><sda2>
[    3.609548] md/raid1:md2: active with 3 out of 3 mirrors
[    3.609623] md2: detected capacity change from 0 to 98520989696
[    3.609685] md: considering sdc1 ...
[    3.609737] md:  adding sdc1 ...
[    3.609789] md:  adding sdb1 ...
[    3.609841] md:  adding sda1 ...
[    3.610005] md: created md1
[    3.610055] md: bind<sda1>
[    3.610117] md: bind<sdb1>
[    3.610175] md: bind<sdc1>
[    3.610233] md: running: <sdc1><sdb1><sda1>
[    3.610714] md/raid1:md1: not clean -- starting background reconstruction
[    3.610773] md/raid1:md1: active with 3 out of 3 mirrors
[    3.610854] md1: detected capacity change from 0 to 20970405888
[    3.610917] md: ... autorun DONE.
[    3.610999] md: resync of RAID array md1
[    3.611054] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[    3.611119] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for resync.
[    3.611180] md: using 128k window, over a total of 20478912k.
[    3.611244]  md1: unknown partition table
[    3.624786] EXT3-fs (md1): error: couldn't mount because of unsupported optional features (240)
[    3.627095] EXT2-fs (md1): error: couldn't mount because of unsupported optional features (244)
[    3.630284] EXT4-fs (md1): INFO: recovery required on readonly filesystem
[    3.630341] EXT4-fs (md1): write access will be enabled during recovery
[    3.819411] EXT4-fs (md1): orphan cleanup on readonly fs
[    3.836922] EXT4-fs (md1): 24 orphan inodes deleted
[    3.836975] EXT4-fs (md1): recovery complete
[    3.840557] EXT4-fs (md1): mounted filesystem with ordered data mode. Opts: (null)

답변:


6

이 경우 crashkernel/kdump설치 및 활성화, 당신이 사용하는 상대적으로 쉬운 커널을 추락 검사 할 수 있어야 crash유틸리티를. 예를 들어, 아래에 저장됩니다 커널 덤프 추락 추정 /var/crash: crash /var/crash/2009-07-17-10\:36/vmcore /usr/lib/debug/lib/modules/끝나면 uname -r을 /vmlinux.

자세한 내용 은 여기여기 를 보십시오 .


나는 수리를 /dev/md1 not found실행할 때 오류를 grub2-probe설치하고 구성 crashkernel / kdump에와 다시 충돌 할 때 경우에 / 다시보고합니다.
Brian Graham

5

/var/log/dmesg커널 메시지를 기록하고 있는 dmesg 파일을 확인할 수 있습니다 . 메시지 로그는 단지 서비스 및 응용 프로그램 메시지를 기록하는 것이며 커널 오류가 발생하면 서비스 및 응용 프로그램은 실행을 중지하지만 커널 오류는 여전히 dmesg에 기록됩니다.


dmesg와 dmesg.old를 확인했는데 모두 시작 정보 (약 4.8 초) 만 포함되어 있습니다. 내가 볼 수있는 유일한 "문제"는 시동 디스크 또는 RAID 드라이브에 문제가있는 것으로 보이지만 시스템이이를 수정하여 작동합니다. 메인 포스트에서 링크를 확인하십시오.
Brian Graham

2
  • 바이오스 메모리 테스트
  • 바이오스 하드 드라이브 테스트
  • 스마트 드라이브 로그 확인 smartctl /dev/sda -a
  • 스마트 드라이브 테스트
  • 떠나 dmesg -wH창에서 실행

세 개의 드라이브 모두에서 스마트 드라이브 테스트를 실행했는데 손상되지 않았습니다. 나는 한 dmesg -wH창에서 실행 (그리고 여전히 SSH를 통해 충돌 후 출력을 읽을 수있는 다시 충돌 할 때까지 나는 가정). 컴퓨터에 물리적으로 액세스 할 수 없습니다. 호스트에게 BIOS 메모리 및 하드 드라이브 테스트를 실행하도록 요청합니까?
Brian Graham
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.