우리는 지금 약 2 년 동안 Amazons AWS 인프라에서 몇 개의 웹 사이트를 운영하고 있으며 약 2 일 전에 웹 서버가 하루에 한두 번 다운되기 시작했습니다.
HTTP/1.1 503 Service Unavailable: Back-end server is at capacity
CloudWatch에서 경보 (CPU / 디스크 IO / DB 연결)를 트리거하지 않습니다. ELB를 건너 뛰기 위해 탄력적 IP를 통해 사이트를 방문하여 다음을 얻었습니다.
HTTP request sent, awaiting response... Read error (Connection reset by peer) in headers. Retrying.
아파치 로그에서 평범하지 않은 것을 보지 못하고 제대로 회전하고 있는지 확인했습니다. SSH를 통해 "작동 중지"된 상태에서 시스템에 액세스하는 데 아무런 문제가 없으며 프로세스 목록을 보면 나에게 정상으로 보이는 151 개의 apache2 프로세스가 표시됩니다. 아파치를 다시 시작하면 일시적으로 문제가 해결됩니다. 이 시스템은 ELB 뒤의 웹 서버처럼 작동합니다. 어떤 제안이라도 대단히 감사하겠습니다.
CPU 사용률 평균 : 7.45 %, 최소 : 0.00 %, 최대 : 25.82 %
메모리 사용률 평균 : 11.04 %, 최소 : 8.76 %, 최대 : 13.84 %
스왑 사용률 평균 : 해당 사항 없음, 최소값 : 해당 사항 없음, 최대 값 : 해당 사항 없음
/ dev / xvda1에 대한 디스크 공간 사용률 / 평균 : 62.18 %, 최소 : 53.39 %, 최대 : 65.49 %
문제가 탄력적 IP에 도달 할 수 없어도이를 배제하고 싶지 않은 ELB가 아니라 개별 EC2 인스턴스에 문제가 있다고 생각합니다. ELB가 실제 EC2 인스턴스에 도달 한 결과를 반환한다고 생각합니다.
업데이트 : 2014-08-26이 업데이트를 더 빨리 업데이트해야하지만 "수정"은 "잘못된"인스턴스의 스냅 샷을 생성하고 결과 AMI를 시작하는 것이 었습니다. 그 이후로는 내려 가지 않았습니다. 여전히 문제가 발생했을 때 상태 확인 curl http://localhost/page.html
을보고로드 밸런서에서 용량 문제가 발생하더라도 상태 확인 페이지 ( )를 볼 수있었습니다. 나는 그것이 건강 점검 문제라고 확신하지는 않지만 아마존을 포함한 아무도 더 나은 답변을 제공 할 수 없기 때문에 그것을 답변으로 표시하고 있습니다. 감사합니다.
업데이트 : 2015-05-06 여기로 돌아와서 내가 굳게 믿는 문제의 일부가 건강 검진 설정이라고 생각했습니다. 교체 AMI가 시작된 후 확실히 개선 되었기 때문에 AMI 관련 문제를 배제하고 싶지 않지만로드 밸런서마다 상태 점검이 다르고 가장 문제가 많은 것으로 확인했습니다. 실제로 공격적인 비정상 상태 임계 값 및 응답 시간 초과가있었습니다. 우리의 트래픽은 예기치 않게 급증하는 경향이 있으며 공격적인 상태 확인 설정과 트래픽 급증 사이에는 완벽한 폭풍이라고 생각합니다.