모니터링 서버를 어떻게 모니터링합니까?


14

따라서 CentOS에서 Groundworks (Nagios와 함께)를 실행하여 다양한 서버와 프로세스를 모니터링합니다. 경고 또는 위험 상태에 도달하면 전자 메일 및 SMS 문자를 자동으로 보내도록 설정했습니다. 일반적으로 이것은 완벽하게 작동합니다. 그러나 Postfix가 전자 메일 전송을 중단하기로 결정한 해당 서버의 Postfix에 두 번 문제가있었습니다. 우리 중 아무도 눈치 채지 못했기 때문에 가장 최근의 시간은 4 일 동안 지속되었습니다.

이로 인해 중요한 질문으로 이어집니다. 모니터링 서버를 어떻게 모니터링해야합니까?


5
custodiet ipsos custodes를 종료 하시겠습니까?
James L

허. 사춘기. 멋지게 연주했다.
organicveggie

파수꾼을 누가 볼까? : D
Florent Courtay

1
@organicveggie, 모니터링 서버도 서버입니다 ... 모니터링 서버를 사용하여 모니터링 서버를 모니터링하면 어떤 문제가 발생합니까?
Pacerier

답변:


12

물론 두 번째 모니터링 서버가 있습니다. 두 번째 것은 훨씬 간단 할 수 있습니다. 첫 번째를 모니터링하기 만하면됩니다. 그리고 그것은 물론 메인 모니터링 시스템에 의해 모니터링되어야합니다.

그룹이 별도의 IT 인프라를 갖춘 더 큰 조직의 일부인 경우 다른 그룹의 모니터링 서비스가 귀하를 감시하도록 준비 할 수 있습니다.

서버가 매일 "괜찮아"메시지를 보내도록하고 그것을 찾는 습관을 가질 수도 있습니다. (물론 일상적인 메시지에 압도되지 않은 경우에만 효과적입니다.)


14

다른 사람들은 문제가 없다고 정기적으로 메시지를 보내라고 제안하지만 개인적으로 나는 그것에 동의하지 않습니다. 문제가없는 한 모니터링은 조용해야하며 "아, 며칠 만에 매일 전자 메일을받지 못했습니다"와 같은 문제가 있음을 알리는 사용자에게 의존해서는 안됩니다. 특히 경고에 응답하는 사람이 두 명 이상인 경우 각 사람이 매일 "I 'm ok"메시지를 이미 제거했다고 생각할 수 있습니다.

우리는 외부 서비스 (수백 가지가 있지만 사용 )를 사용 하여 모니터링 서버의 HTTP 검사를 수행하여 서버가 작동하고 인터넷에 도달 할 수 있는지 확인합니다. 그것이 우리의 주요 관심사입니다. 그런 다음 Nagios 서버는 모든 클라이언트 Nagios 서버를 모니터링합니다.

그러나 당신은 좋은 지적을합니다. 우리는 아마 HTTP의 URL이 확인 후위 큐를 추가해야하고 아마이 의미 메시지의 이상한 수를 보여줍니다 경우 어떤 대기열에를, 다음 경고를 발생. 다른 옵션은 경고에 다른 방법을 사용하는 것입니다 (SMTP가 아닌 SMS 배달 에이전트 및 현재 사용중인 SMTP).

그러나 우리의 경우 메일 서버가 죽었다는 것을 기억할 수 없습니다. 물론, 메일 서버가 사용되는 모든 것은 Nagios 경고를 보내는 것이므로 구성은 매우 간단하고 거의 변경되지 않습니다.


2
규칙적인 OK 메시지는 그다지 유용하지 않습니다. 자극이없는 상태에서 행동하도록 사람을 안정적으로 조절할 수는 없습니다.
Tim Williscroft

@Tim : 죄송하지만 "자극의 부재"는 예상되는 이메일을받지 못한 상황을 설명하지 않습니다. 그러한 경우에 나는 메시지가 도착하지 않은 이유를 조사하기 위해 "자극"을받을 것이라고 믿는다. 하지만 어쩌면 그저 나일뿐입니다. :)
Steven 월요일

1
나는 당신이 생각하는 것을 의미하지 않는 심리적 용어를 사용하여 글을 쓰고 있다고 생각합니다. 행동 심리학 및 항공 심리학은 시스템 엔지니어에게 많은 것을 알려줍니다. 이 필드는 18 ~ 20 세의 승무원이 충돌없이 최첨단 항공기를 비행하고 실제 군사 임무에 여전히 관심을 갖도록 WWII에서 크게 개발되었습니다. 그렇기 때문에 항공기에는 "모든 것이 정상"조명이 아닌 마스터주의 조명이 있습니다. TLDR (그 단어가 당신이 생각하는 바를 의미한다고 생각하지 않습니다)
Tim Williscroft

1
나는 인간의 관심이 필요한 것이 없다면 시스템이 소리를 내지 말아야한다는 의견에 매우 강력하다. 우리는 유한 한 관심을 가지고 있으며, 컴퓨터는 "I 'm live!"와 같은 작은 입술로 쉽게 우리를 압도 할 수 있습니다. 또한 문제가 있음을 나타내지 않는 것은 사람들이 무시하는 것을 염두에 두는 것입니다. 나는 무언가가 인간에게 올 때 그것이 정말로 볼 필요가 있는지 확인하기 위해 열심히 노력합니다. 나는 그가 매일 검토하는 모든 종류의 통나무를 가진 사람과 함께 일합니다. 물론, 그는 ... 그는 점심을 밖으로 갈 수 없어 너무 바쁜
숀 Reifschneider

1
서비스가 너무 많은 메시지를 보내거나 사람들이 메시지를 빨리 무시하지 않아야한다는 데 동의합니다. 그러나 모니터링 시스템이 올바르게 설정된 경우 많은 메시지가 표시되지 않아야합니다. 물론 Google은 Groundworks / Nagios의 알림을 승인하는 정책을 통해 일정 기간 동안 메시지를 효과적으로 중지합니다. 장기 정전 인 경우 시스템 또는 서비스에 대한 모니터링을 비활성화합니다. 결과적으로 매일의 "I 'm Alive"메시지는 실제로 상당히 합리적입니다.
organicveggie

5

분명히 당신의 postfix도 모니터링해야하지만, 그것은 또 다른 주제입니다;)

내가 사용하는 파이어 폭스의 Nagios 검사 플러그인을 항상 내가 정기적으로 사용하는 컴퓨터의 상태 표시 줄에서 실행됩니다.

또한 외부 호스트에 nagios 호스트를 핑하고 핑에 응답하지 않으면 SMS를 보내는 사용자 정의 스크립트가 있습니다.

지금까지 (5 년 이상) 잘 작동했습니다 (나무 노크).


2

모니터링 서버 모니터링 (우리의 경우 nagios)의 경우 Pingdom 또는 alertfox의 무료 또는 기본 계획이 효과적입니다.


좋은 제안. 그러나이 경우 방화벽 외부에서 모니터링 서버에 액세스 할 수 없습니다. Pingdom과 Alertfox는 실제로 작동하지 않습니다.
organicveggie

1

첫 번째 : 하루에 한두 번 "I am alive"메시지를 보냅니다. 둘째, 다른 GSM 모뎀, 소형 UPS 등이 있고 1 차 모니터링 서버에 대한 전용 (직접) 연결이있는이 목적으로 만 오래된 머신을 실행합니다. 이는 포인트 3에도 도움이됩니다. 모니터링 시스템의 상태를 정기적으로 확인하십시오. 소규모 보조 모니터링 시스템은 항상 내 사무실에서 기본 시스템의 상태 페이지를 표시합니다.


1

인터넷에서 모니터링 서버에 연결할 수있는 경우 외부 공급자 (예 : websitepulse et al.)가 모니터링 서버를 모니터링해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.