인프라 모니터링 전략

12

최근에 내가 배치 한 일부 Drupal 사이트에서 다운 타임이 발생했습니다. 서비스 나 서버 자체를 다시 시작하여 이러한 다운 타임에 대응하는 대신 문제에 능동적으로 접근하고 싶습니다. 서버 / 인프라의 상태를 모니터링하기 위해 nagios, munin, cacti 등과 같은 모니터링 도구에 대해 읽었지만 실제로 프로덕션 환경에서는 시도하지 않았습니다. Drupal은 거의 99 %의 시간을 처리하며 서버 수준 모니터링과 Drupal (응용 프로그램 코드) 수준 모니터링에 대한 제안을 찾고 싶습니다.

기본적으로 서버로드가 높으면 범인 (또는 피해자)을 지적하여 정보에 근거한 결정을 내릴 수 있도록 알림을 받고 싶습니다. 또한 PHP 오류 / 경고가있을 때 사람들이 Drupal 레벨 모니터링 (예 : 이메일)에 무엇을 사용하는지 알고 싶습니다. (이메일 서버 자체가 다운되면 어떻게됩니까?)

performance

— 디펜
소스

6

같은 곳에서 여러 Drupal 사이트를 경고 등으로 모니터링하려면 ... 당신이 유일한 사이트는 아니라고 말할 수 있습니다. 이제 비즈니스 틈새 시장이되기 시작했습니다.

드랍 터
새로운 유물 ( Acquia 는 고객을 위해 사용하고 있습니다)

두 가지 모두 상용 SaaS 접근 방식이며 서비스를 무료로 이용할 수있는 옵션이 제한되어 있습니다.

또한 Drupal 모듈 http://drupal.org/project/zabbix 와 함께 오픈 소스 Zabbix 모니터링 옵션이 있지만 서버를 직접 구성하고 구축해야합니다.

이 모든 옵션에는 서버 및 Drupal 관련 정보를 모니터 서버로 보내는 Drupal 모듈이 있습니다.

최신 정보. Munin 은 또한 Drush에 기반한 2.x 브랜치와 함께 특정 Drupal 모듈을 가지고 있습니다 .

— 코르 바코
소스

drupal과 함께 새로운 유물을 시험해 보았으며 대부분의 경우 좋은 방법으로 실제로 광범위하게 말해야합니다 (xhprof는 NR의 트랜잭션 추적을 대체하는 것이지만 데이터 수집은 불가결합니다). 또한 drupal.org가 모니터링을 위해 nagios를 채택한 것에 대해 들었습니다. 답변 해 주셔서 감사합니다. 커플을 선택하기 전에 며칠 더 기다릴 것입니다.

— Dipen

5

어느 쪽을 사용하든 관계없이 전임 IT 직원이없는 한 자체 모니터링을 유지하지 않는 것이 좋습니다. 즉, 서버와 완전히 독립된 서비스를 사용하십시오. 모니터링 서버도 다운되었으므로 공용 서버를 다운시키는 것이 좋습니다. 대부분의 모니터링 서비스에는 상자에 나와있는 모든 요구 사항이 포함됩니다.

그러나 이것이 쇼핑 추천 질문으로 바뀌는 위험에 따라 귀하가 제시 한 요구 사항에 사용하는 서비스는 Pingdom입니다 .

사이트가 올라 왔는지 알려줍니다 (물론).
응답하는 데 걸리는 시간 측정
모든 사용자 정의 TCP / UDP 포트에서 응답 성 및 가용성 측정
이메일 가용성 확인
사용자 정의 HTTP 요청을 허용하여 애플리케이션의 다양한 측면을 테스트 할 수 있습니다
광범위한보고
전 세계 모니터링 및 몇 개월마다 약 12 개의 모니터링 사이트 추가

— 키암 랄루 노
소스

나는 이미 site24x7.com을 사용 하고 경고를 위해 pingdom (diff 사이트)을 사용하고 있으며, 자원 사용 또는 잠재적 문제에 대해 사전에 알려주고 서버 환경과 긴밀하게 통합되는 모니터링을 원했습니다. 답변 주셔서 감사합니다.

— Dipen

2

다음은 Drupal-agnostic 제안입니다.

내 사이트 를 가동 하시겠습니까? 사이트가 오프라인이거나 응답하지 않는 경우 주기적으로 서버를 핑 (Ping)하고 이메일 (무료 패키지가없는 경우 SMS)을 보내드립니다.
Load Impact 는 웹 사이트에 스트레스 테스트를 수행하여 웹 사이트가 정확히 시작되지 않는 시점을 알 수있는 훌륭한 무료 도구입니다.

Drupal 응용 프로그램 자체에서 Xdebug + Webgrind 또는 XHProf 를 사용하여 코드를 프로파일 링 하고이 질문에 주목하십시오. Drupal 스택 성능을 벤치마킹하는 가장 좋은 방법

— 알렉스 웨버
소스

로드 영향에 대해 알려 주셔서 감사합니다. jmeter를 사용하고 있지만 테스트 계획 등을 설정하는 것이 더 많은 작업입니다.로드 영향이 drupal 인증 시뮬레이션을 처리 할 수 있기를 바랍니다.

— Dipen

1

유용하기 때문에 소규모 / 중간 사이트에 대한 Pingdom을 좋아합니다. 고객의 입장에서 뭔가 잘못되었다는 사실을 알려줍니다. 로드 평균과 같은 것은 잘못 잘못 구성 된 스택 (필수하지 않아야 함)이 없거나 Digg / Reddit에서 망치지 않는 한 실제로 의미가 없습니다 (어쨌든 할 수있는 일이 없다면, 준비).

에서 테드 Dziuba의 블로그 :

이러한 유형의 경고를 Cool Story, Bro라고합니다. 이들은 일종의 문제 상태를 나타내지 않으며 정보를 요구하지 않는 정보입니다. 쿨 스토리는 경고하지 않아도되는 것들입니다. 그들은 당신의 시간을 낭비하고 편집증을합니다. Cool Story Bro 알림은 다음과 같습니다.

서버의로드 평균이 20 이상입니다.

작업 대기열에는 X 개 이상의 작업 단위가 있습니다. 축하합니다, 멍청 아, 대기열이 정확히해야 할 일을하고 있습니다.

일부 메트릭은 경험적으로 결정된 평균보다 큽니다. 나는 이런 식으로 개인적으로 기분을 상하게한다.

블로그 게시물을 읽으면 재미 있습니다.

— 엔 텐두
소스

0

다양한 drupal 사이트를 모니터링하기 위해 check_drupal 을 사용하고 있습니다. 이것은 드루팔 사이트 자체에 대한 코드 변경이 필요없는 nagios 플러그인입니다. 요구 사항은 서버에 drush가 있어야한다는 것입니다.

— Lockdoc
소스