여러 OpenVZ 컨테이너와 함께 Debian Squeeze를 사용하여 서버를 실행합니다. 컨테이너는 주로 Squeeze, 일부는 Lenny 및 일부는 이미 Wheezy로 업데이트되었습니다. 호스트는 iptables와 DHCP를 넘어서 그렇게 많은 것을하지 않습니다. 파일 서버, 프록시, 메일 서버, kerberos, LDAP 등은 모두 컨테이너에 저장됩니다. 시스템은 수년간 안정적으로 운영되었으며 1 년 이상 방화벽 규칙을 제외하고는 큰 변화가 없었습니다.
이틀 전에 갑자기 시스템이 다운되었습니다. 나는 그것을 다시 제기하는 데 많은 문제가있었습니다. 처음에는 ssh를 통해 로그인 할 수 없었습니다. '존재하지 않습니다.로 루트 로그인이 거부되었습니다. 저리가! ' 로컬 로그인에 문제가 없었습니다. 얼마 후 ssh가 다시 작동했습니다. 우연히도 나는 bash 기록에서 줄을 재사용하지 않았지만 새로운 명령을 입력했다.
그런 다음 시스템은 실행되었지만 SYN ACK 이후 대부분의 프로토콜에서 네트워크 트래픽이 차단되었습니다. DNS, Telnet 및 SSH는 괜찮 았지만 나머지는 엉망이었습니다. 몇 시간 동안 어둠 속에서 낚시를하고 방화벽을 여러 번 다시 장전 한 후 갑자기 모든 것이 다시 정상적으로 진행되었습니다. 로그에서 의심스러운 것을 찾을 수 없었지만 법의학 전문가는 아닙니다.
오늘 파일 할당량의 nscd가 컨테이너 할당량으로 인해 LDAP에서 소켓에 연결되지 않았습니다. 전에 일어난 적이없는 일. 또한 smbd가 주장한 많은 소켓 (> 30)을 보았습니다.
/ var / log / messages는 syslog 와 거의 동일하게 보입니다 . /var/log/kern.log에는 충돌 원인에 대한 추가 정보가 있습니다.
/var/log/kern.log:2950:Sep 19 10:46:57 asgard kernel: [6529441.320086] INFO: task sendmail:32181 blocked for more than 120 seconds.
/var/log/kern.log:2982:Sep 19 10:48:57 asgard kernel: [6529561.324525] INFO: task kdmflush:1932 blocked for more than 120 seconds.
/var/log/kern.log:3005:Sep 19 10:48:57 asgard kernel: [6529561.324694] INFO: task xfssyncd:10162 blocked for more than 120 seconds.
/var/log/kern.log:3027:Sep 19 10:48:57 asgard kernel: [6529561.324934] INFO: task postgres:16827 blocked for more than 120 seconds.
/var/log/kern.log:3060:Sep 19 10:49:51 asgard kernel: [6529561.325129] INFO: task imapd:31749 blocked for more than 120 seconds.
/var/log/kern.log:3084:Sep 19 10:49:51 asgard kernel: [6529561.325248] INFO: task cleanup:32194 blocked for more than 120 seconds.
/var/log/kern.log:3106:Sep 19 10:50:57 asgard kernel: [6529681.324028] INFO: task flush-253:3:3216 blocked for more than 120 seconds.
/var/log/kern.log:3142:Sep 19 10:50:57 asgard kernel: [6529681.324224] INFO: task kjournald:6859 blocked for more than 120 seconds.
/var/log/kern.log:3166:Sep 19 10:50:57 asgard kernel: [6529681.324366] INFO: task syslogd:11720 blocked for more than 120 seconds.
/var/log/kern.log:3198:Sep 19 10:50:57 asgard kernel: [6529681.324574] INFO: task postgres:16827 blocked for more than 120 seconds.
/var/log/kern.log:7152:Sep 19 19:29:41 asgard kernel: [ 1440.617090] INFO: task sendmail:11892 blocked for more than 120 seconds.
컴퓨터를 재부팅 한 후 마지막 'Sendmail'충돌이 발생했습니다. 그 이후로 더 이상 그러한 사건이 발생하지 않았습니다. 'imapd'와 'postgres'는 확실히 다른 컨테이너에서 실행됩니다.
글쎄, 나는 흡연 총을 보지 못했지만 아마도 장님 일 것입니다. 알려진 / 추정 된 백업에서 시스템을 설정하면 아무 이유없이 시도하기가 너무 어려워집니다.
다음에 확인해야 할 조언이 있으면 감사하겠습니다.
당신의 도움을 주셔서 감사합니다.
업데이트 : 충돌의 사전 커서를 검색하는 데 더 많은 노력을 기울이고 syslog에서 다음을 발견했습니다.
Sep 19 10:09:56 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Sep 19 10:09:56 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Sep 19 10:09:56 asgard ntop[7965]: **WARNING** packet truncated (10490->8232)
Sep 19 10:09:56 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Sep 19 10:09:56 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Sep 19 10:09:56 asgard ntop[7965]: **WARNING** packet truncated (17442->8232)
Sep 19 10:11:02 asgard ntop[7965]: **WARNING** packet truncated (11650->8232)
Sep 19 10:11:02 asgard ntop[7965]: **WARNING** packet truncated (10202->8232)
Sep 19 10:11:29 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Sep 19 10:13:27 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Sep 19 10:20:33 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
나는 이것이 중요하지 않은 것으로 여겨지지만 드문 사건 인 것 같습니다. 패킷 잘림은 두 번째 충돌 일에만 존재합니다. 사용 가능한 모든 로그 파일이 없습니다.