인사말,
분산 모니터링 시스템에 대한 의견과 견해를 묻고 싶습니다. 무엇을 사용하고 있으며 어떤 것이 내 박스를 체크 할 수 있는지 알고 있습니까?
요구 사항은 매우 복잡합니다.
단일 실패 지점이 없습니다. 정말. 나는 심각하게 죽었다! '마스터'및 '작업자'모두 단일 / 다중 노드 장애를 허용 할 수 있어야하며 모니터링 위치 ( "사이트")에 여러 노드가 없거나 동일한 네트워크에 있다고 가정 할 수 있습니다. 따라서 이것은 아마도 DRBD 또는 Keepalive와 같은 전통적인 HA 기술을 배제 할 것입니다.
분산 논리, 여러 데이터 센터 및 여러 대륙에 여러 네트워크에 5 개 이상의 노드를 배포하고 싶습니다. 고객의 관점에서 네트워크 및 응용 프로그램에 대한 "새 눈"보기, 50 개 이상의 노드 또는 500 개 이상의 노드가있을 때 모니터링 논리에 대한 보너스 포인트가 저하되지 않습니다.
야구장 수치에 대해 상당히 합리적인 수의 호스트 / 서비스 확인 (la Nagios)을 처리 할 수 있어야하며 호스트 당 1500-2500 개의 호스트와 30 개의 서비스를 가정합니다. 더 많은 모니터링 노드를 추가하여 상대적으로 선형으로 확장 할 수 있다면 정말 좋을 것입니다. 아마도 5 년 안에 호스트 당 5000 개의 호스트와 40 개의 서비스를 모니터링하려고 할 것입니다! 위의 '분산 논리'에 대한 참고 사항을 추가하면 다음과 같이 말할 수 있습니다.
- 정상적인 상황에서 이러한 검사는 $ n 또는 n %의 모니터링 노드에서 실행해야합니다.
- 장애가 감지되면 다른 $ n 또는 n %의 노드에서 검사를 실행하고 결과를 상관시킨 다음이를 사용하여 경보를 발행하기위한 기준이 충족되었는지 여부를 판별하십시오.
그래프 및 관리 친화적 인 기능. SLA를 추적하고 '고 가용성'애플리케이션이 연중 무휴 24 시간 가동되는지 여부를 아는 것이 다소 유용합니다. 이상적으로 제안 된 솔루션은 최소한의 faff로 "즉시"보고해야합니다.
맞춤형 검사 개발을위한 견고한 API 또는 플러그인 시스템이 있어야합니다.
경고에 대해 합리적이어야합니다. 하나의 모니터링 노드가 코어 라우터가 다운 되었다는 것을 반드시 SMS를 통해 (3am!) 알고 싶지 않습니다 . 내가 않는 그들의 정의 비율이 알고 싶은 동의 뭔가 펑키이 벌어지고 있음) 기본적으로 제가 여기에 대해 이야기하고있는 것은 "쿼럼"논리, 또는 분산 광기에 정신의 응용 프로그램입니다!
상용 및 공개 소스 옵션을 모두 고려하고 싶습니다. 수백만 파운드의 비용이 드는 소프트웨어를 사용하지 않으려 고합니다 .-) 또한 모든 상자를 표시하는 아무것도 없을 수 있음을 인정합니다. 집단에게 물어보고 싶었습니다.
모니터링 노드와 배치에 대해 생각할 때, 이들 중 대부분은 임의의 ISP 네트워크에있는 전용 서버이므로 대부분 제어 할 수 없습니다. BGP 피드 및 기타 복잡한 네트워킹 기술에 의존하는 솔루션은 적합하지 않을 수 있습니다.
또한 Nagios, Zabbix 및 친구들을 포함하여 과거에 오픈 소스 맛의 대부분을 평가, 배포 또는 많이 사용 / 사용자 정의했음을 지적해야합니다.이 도구는 실제로 나쁜 도구는 아니지만 전체적으로 평평합니다. 특히 제 질문과 '지능적'경고에서 논의 된 논리와 관련하여 분산 된 측면입니다.
필요한 사항을 명확하게 설명해 드리겠습니다. 건배 남자와 여자 :-)