지난 주에 고객과의 SLA를 중단시키는 여러 서비스에 영향을 미치는 심각한 중단이있었습니다. 이제 모든 것이 해결되었으므로 사후 검토를 수행하고 있습니다.
이 검토에서 중단, 영향, 응답 및 해결 방법을 설명하는 내부 문서를 작성하고 싶습니다. 향후 재사용을 위해 상당히 표준적인 양식을 만들고 싶습니다. 아래에 내 생각을 포함 시켰지만 다른 항목은 포함해야합니까? 이것이 보안 관련 사건이라면 무엇을 추가 하시겠습니까?
- 요약 이벤트의 요약 수준.
- 영향을받는 서비스
- 영향 사용자 및 SLA에 미치는 영향은 무엇입니까? 달러 기준, 거래 누락, 고객 손실 등의 비용이 있었습니까?
- 가동 중단 기간 차이가있는 경우 영향을받는 각 서비스에 대해
- 1 차 및 2 차 원인을 포함하는 원인
- 해결
- 이벤트 일정 알림, 외부 공급 업체와의 연락, 고객 알림, 응답 등
- 응답 문제 정전에 대한 응답으로 계획 한대로 진행되지 않았습니까? 올바른 사람들에게 알렸습니까? 공급 업체가 계약 의무를 충족 했습니까?
- 예방 조치 취할 이 중단을 다시 방지하거나 그 영향을 줄이려면 어떻게해야합니까?
- 탐지 방법 이 중단을 얼마나 잘 탐지했으며 향후 탐지를 어떻게 개선합니까?
- 향후 중단 대응을위한 변경 사항
게시물을 하나의 항목과 설명으로 유지하려고하면이 게시물을 가장 많이 투표 한 답변으로 업데이트 할 수 있습니다.