LInux :“무작위”중단 및 자발적인 재부팅을 일으키는 원인을 어떻게 진단 / 분리합니까?


20

(원래 serverfault에 게시 )

따라서 원인이 무엇인지 추측하는 것보다는 (내 돈이 엔비디아 드라이버에 있지만) 몇 가지 사실을 알아 내기 시작하는 곳은 어디입니까?

나는 여러 번 / var / log를 겪었지만 거기에 많은 것들이 있으며 중요한 비트를 찾을 수 없습니다.


배경 : 짧은 버전

WinXP에서 Ubuntu Karmic으로 옮겨졌습니다.

그 이후로 다음 중 하나로 나타나는 일련의 겉보기 무작위 충돌이 발생했습니다.

  • 자발적인 재부팅
  • USB 키보드와 마우스가 응답하지 않게되는 완전한 잠금 (LED가 모두 꺼지는 즉시). 또한 나는 이것이 일어날 때 일반적으로 상자에 ssh 할 수 없습니다.

나는 많은 수색을 해왔고 Nvidia가 최고의 용의자 인 것처럼 보이지만 실제 원인이 무엇인지 알아 내기 위해 어디서부터 시작해야할지 모르겠습니다.

serverfault 사용자는 MemtextX86 +로 RAM을 점검 할 것을 제안했습니다. 오류가 없습니다. 비디오 카드 온도 모니터링도 제안되었습니다.

그 외에는 다른 사람이 있습니까?



배경 : 긴 버전

때때로, 나는 충돌없이 일주일 내내 갈 수 있고 2 일 동안 5를 가질 수 있습니다.

가능한 용의자를 제거하려는 욕구에 힘 입어 시간이 지남에 따라 몇 가지 사항을 변경했습니다.

  • 원래는 가상화에 KVM을 사용했으며 이제 VirtualBox OSE를 사용합니다.
  • 커널에서 NFS를 실행했지만 Samba를 사용합니다.
  • Compiz를 사용하고 있었지만 그 이후로 사용 중지했습니다
  • 64 비트 Karmic에서 32 비트로 롤백했습니다 (다른 이유로도)
  • Ubuntu, Kubuntu 및 Xubuntu를 시도했습니다. 매번 같은 문제가 발생합니다 (늦었지만 XFCE보다 Gnome에서 더 자주 발생하는 것으로 보입니다).
  • Nvidia 드라이버를 버전 185에서 버전 96으로 다시 롤백했습니다 (NVIDIA Linux x86 커널 모듈 96.43.13 Thu Jun 25 18:42:21 PDT 2009). 이것은 오류 빈도를 줄인 것 같습니다 .


당시에 실행중인 측면에서 이는 다를 수 있습니다. 다음은 일반적이지만 모든 충돌에 대해 반드시 실행되는 것은 아닙니다.

  • Firefox 3.5
  • 1 개 또는 2 개의 Windows XP VM이있는 VirtualBox OSE
  • 스카이프
  • 리듬 박스 또는 엑 사일


내 하드웨어는 2-3 세입니다.

  • 코어 2 듀오 6300
  • 4GB RAM
  • 빈티지의 인텔 마더 보드
  • Nvdia GeForce 7300 GS 칩셋이 장착 된 Asus 듀얼 헤드 비디오 카드
  • SATA HDD 2 개
  • 듀얼 모니터 (따라서 독점 NVIDIA 드라이버를 사용합니다)


시스템 업데이트를 최신 상태로 유지했습니다.

위의 데이터가 누군가에게 조사 할 가치가있는 특정 유형의 로그 또는 구성을 제안하도록 요구할 수 있기를 바랍니다.


업데이트 1

스피커가 엉망이 된 충돌이 발생했습니다. 인터넷 검색을했는데 PulseAudio가 과거에 몇 가지 문제가 있었던 것 같습니다. 이것이 관련이 있는지 확실하지 않지만 충돌이 발생할 때마다 PulseAudio가 실행 중입니다.


업데이트 2

@CarlF의 데비안 Sysadmin 가이드 링크를 따라가 다음 충돌시 시도 할 매직 sysrq 키로 연결되었습니다. 이것이 원인에 대한 많은 단서를 줄 것이지는 않지만 적어도 나는 정상적으로 종료 할 수 있기를 바랍니다.


업데이트 3

lm-sensors는 내 GPU가 거의 70C / 158F에서 실행되고 있다고보고합니다. 내가 추측해야한다면 이것이 중요한 단서라고 말할 것입니다.


업데이트 4

마지막 업데이트 직후 에어 더 스터로 시스템 내부를 공격하십시오. 순 결과 : 그 이후로 단 한 번의 충돌이 발생했습니다. 나는 이것을 열 문제라고 부를 것이다.


3
훌륭한 서식 및 배경 정보는 모든 질문이 이와 같기를 바랍니다. +1.
John T

답변:


8

데비안 관리자 가이드의 좋은 조언이 있습니다 : http://www.debian-administration.org/articles/492


정보가없는 로그에 대한 실제 하드웨어 문제의 표시가 무엇인지 궁금합니다. 마지막 / var / log / message 항목과 재부팅 사이에 6 시간의 간격이 있습니다. 흠.
LRE

링크에서 로그에 아무것도 하드웨어 문제와 같지 않다는 사실이 인정되었으므로 올바른 방향으로 인도하십시오.
LRE

4

부팅하는 동안 하드웨어 문제가 있는지 먼저 확인하고 싶을 수도 있습니다. 부팅 프로세스는 커널 링 버퍼에서 데이터를로 기록합니다 /var/log/boot.log. 시스템이 부팅 된 후 새 메시지가이 버퍼로 플러시되고 dmesg명령을 사용하여 현재 상태를 볼 수 있습니다 . 조사하고자하는 중요한 로그는 /var/log/messages입니다. 여기에는 타임 스탬프, 시설 및 오류의 우선 순위 및 오류를 생성 한 응용 프로그램이 포함됩니다. 오류를 디버깅 할 때 타임 스탬프를 사용할 수 있다는 것은 귀중한 자산입니다.

랜덤 락 업은 확실히 하드웨어와 관련이 있습니다. 마더 보드의 모든 하드웨어를 다시 장착하고 memtest86 + 실행을 시도하십시오 .


/ var / log / messages에 "imklog 4.2.0, log source = / var / run / rsyslog / kmsg started"라는 줄이 있습니다. 이것이 시스템 부팅의 좋은 지표입니까? 그렇다면 그것을 사용하여 로그 영역을 찾아 낼 수 있습니다.
LRE

예, 부팅 후 첫 번째 줄이 아니라면 첫 번째 줄 중 하나라고 생각합니다. 커널 로그 입력 모듈입니다.
John T

2

메모리, 프로세서 및 기타 칩을 다시 장착 해 보셨습니까? 또한 일부 가능성을 제거하기 위해 다른 OS (FreeDOS)를 실행하려고 할 수 있습니다.

팁으로, nvidia 드라이버를 사용하지 않고도 Gnome을 통해 두 개의 모니터를 아주 잘 사용할 수 있어야합니다.


듀얼 모니터를 사용하려면 엔비디아 드라이버가 반드시 필요하다고 말할 수있었습니다. 당신이 그들을 필요로하지 않는 올바른 방향으로 나를 가리킬 수 있습니까?
LRE

잘못되었을 수 있습니다. 나는 약간의 주위를 찌르고, xinerama (내가 드라이버가 확장을 가지고 있다고 생각한다)에 대한 언급을 보았지만 비 독점적 인 드라이버와는 관련이 없다. 불행히도, 나는 nVidia 카드가있는 기계가 없습니다.
Nerdfest
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.