인프라 실행에 대한 자세한 지표를 수집하기 위해 Prometheus 를 모니터링 워크 플로 에 점차 통합했습니다 .
이 과정에서 나는 종종 독특한 문제가 발생하는 것을 발견했다. 때로는 Prometheus가 데이터를 가져와야하는 수출업자가 응답하지 않는 경우가있다. 네트워크 구성 오류로 인해 더 이상 액세스 할 수 없거나 내보내기가 중단되었을 수 있습니다.
그 이유가 무엇이든, 나는 Prometheus에서 볼 것으로 예상되는 일부 데이터가 누락되어 있고 특정 기간 동안 시리즈에 아무것도 없습니다. 때로는 한 수출 업체가 실패 (타이밍?)하면 다른 수출 업체도 실패하는 것처럼 보입니다 (처음 시간 초과로 인해 전체 작업이 최상위 시간 초과를 초과했거나 추측 만하는 경우).
위의 시각화에서 볼 수 있듯이 시리즈에 차이가 있습니다. 이 경우 로그에 아무 것도 없습니다. 프로 메테우스 자체 측정법도 상당히 불분명합니다. 나는 방금 프로 메테우스가하고있는 것을 수동으로 복제하려고 시도하고 그것이 어디에서 깨지는지를보아야했습니다. 이것은 짜증나 다. 더 좋은 방법이 있어야합니다! 실시간 알림은 필요하지 않지만 적어도 수출 업체가 데이터를 제공하지 못한 것을 확인하고 싶습니다. 부울 "데이터 확인"플래그조차 시작될 것입니다.
수출업자로부터 데이터를 얻지 못한 Prometheus에 대한 의미있는 정보는 어떻게 얻습니까? Prometheus 데이터 수집에 대한 수동 시뮬레이션을 수행하지 않고 차이가 존재하는 이유를 어떻게 알 수 있습니까? 이와 관련하여 Prometheus 이외의 일반적인 데이터 수집 모니터링까지 확장 될 수있는 합리적인 방법은 무엇입니까?