더 많이 볼수록 데이터 수집에 문제가 있다고 생각하는 경향이 있습니다.
우선, TPS와 관련하여 정말 이상한 일이 있습니다. 전체 패턴이 정상인 것처럼 보이지만 오후 9 시쯤에 다시 오전 7시에 매우 급격한 중단이 발생합니다. 피크가 아닌 시간으로 전환하는 동안 일반 차트가 훨씬 매끄 럽습니다.
이는 프로파일에 변경 사항이 있으며 두 가지 유형의 클라이언트가있을 수 있음을 나타냅니다.
- 오전 7시에서 오후 9시 사이에 대량으로 운영되는
- 다른 것은 아마도 낮은 볼륨에서 24 시간 내내 작동 할 것입니다.
두 번째 힌트는 약 18:00입니다. 전후에 대부분의 시간, 우리는이 높은 고 TPS 및 낮은 지연 시간 - 볼륨 프로파일을. 그러나 약 18:00에 800-1000 RPM에서 400 RPM 미만으로 급격히 떨어졌습니다. 그 원인은 무엇입니까?
세 번째 힌트는 5 번째 백분위 수 응답 시간의 감소입니다. 실제로 최소 응답 시간을보고 선호 (그러나 5 백분위 가능성이 더 낫다) 두 가지 이유 : 그것은 나에게 말한다 서비스 시간 (즉, 응답 시간 - 대기를) 및 응답 시간은 이블 분포를 따르는 경향이있는 것을 의미 모드 (또는 가장 일반적인 값)이 최소값 바로 위에 있습니다.
따라서 5 번째 백분위 수의 스텝 다운은 시리즈에 갑작스러운 중단이 있으며 분산과 평균 응답 시간이 크게 증가하더라도 실제로 서비스 시간이 단축되었다고 말합니다.
다음 단계
이 단계에서 나는 로그 전과 후의 대량 샘플과 비교하여 18:00의 낮은 볼륨 샘플과 다른 점을 찾기 위해 로그를 자세히 살펴볼 것입니다.
나는 찾을 것이다 :
- 지리적 위치의 차이 (대기 시간이 $ request_time에 영향을 미치는 경우)
- URL의 차이 (없어야 함)
- HTTP 방법의 차이 (POST / GET) (없음이어야 함)
- 동일한 IP의 반복 요청
- 그리고 다른 차이점들 ...
BTW, 18:00 "이벤트"는 데이터 센터 정체 / 활동과 관련이 없다는 증거입니다. 그러기 위해서는 혼잡으로 인해 TPS가 18:00에 떨어질 수 있지만 오후 9시에서 오전 7시 사이에 10 시간 동안 TPS가 지속적으로 매끄럽게 감소하지는 않을 것입니다.