모든 것이 터질 때 당신의 점검표는 무엇입니까?


40

사용자는 전자 메일을받을 수없고, CEO는 회사의 홈페이지를 방문 할 수 없으며, 호출기는 "911"코드로 시작했습니다. 모든 것이 터지면 어떻게합니까?

답변:


35

첫 번째 대답은 침착하십시오! 나는 당황하는 어려운 길로 인해 종종 상황이 악화된다는 것을 알게되었습니다. 그것이 달성되면 다음 것은 실제로 문제가 무엇인지 확인하는 것입니다. 사용자와 관리자의 불만은 모든 각도에서 당신에게 올 것입니다.

문제를 알고 나면 문제를 해결하기 위해 계획을 시작하고 화난 사용자에게 타임 스케일을 줄 수 있습니다!


3
이것은 사후 계획입니다. 모든 중요한 비즈니스 프로세스에 대해 진정한 재해 복구 계획이 이미 작성되어 테스트되었습니다.
spoulson 2009

3
spaulson sure : 그러나 가장 먼저해야 할 일은 계획을 활성화해야하는지 또는 회로 차단기를 뒤집어 놓으면 모든 것이 해결되는지 알아내는 것입니다.
pjz

1
이것은 실제로 가장 좋은 일입니다. 완벽한 POST! 위의 의견에서 언급했듯이 모든 사람이 등을 대고 압력을 가할 수있게되면 모든 사람이 사무실로 달려가 원하는 곳으로 갈 수 있다고 말할 것입니다. 실제로 사용자는 대부분이 순간에 이기적이며 전혀 이해하고 싶지 않습니다. 그들은 일이 작동하고 나머지는 신경 쓰지 않기를 원합니다 ... 그래서 귀하의 게시물에 전적으로 동의합니다 !
Marc-Andre R.

증상과 "문제"를 구별하기 위해 +1
bmb

59

진정해

놀라지 마십시오. 숨 쉬세요! (다이어프램에서 도움이됩니다.) 명상을 공부했다면 도움이 될 수도 있습니다.

극심한 스트레스에 시달리면 신체는 생명 또는 사망 상황에 있다고 생각하기 때문에 비행 또는 전투 모드로 전환됩니다. 이때 신체는 실제로 뇌의 일부 부분에 혈액을 덜 흘려서 추론과 같은 기능을 줄입니다. 이것은 합리성 대신 본능이 뇌 기능을 지배하기 시작함에 따라 IQ를 효과적으로 낮 춥니 다. 당신이 열띤 논쟁에 빠져 있거나 목격 한 적이 있다면 사람들의 감정이 타 오르고 합리성이 휴가를 가짐에 따라 이러한 증상을 인식 할 수 있습니다. 나중에 사람들이 식을 기회가있을 때, 실수를했거나 잘못한 것을 받아 들일 가능성이 높고 반대편을 더 잘 볼 수는 있지만 순간적인 열기에는 더 적습니다.

당신의 평정을 유지하고 당신에 대한 지혜를 유지하는 것은 뇌의 기능을 최대로 유지하고 감정과 두려움보다는 증거와 이성을 근거로 합리적인 결정을 내릴 수있게합니다.

심사

최저 비용으로 최대의 이익을 달성하기 위해 제한된 자원을 효율적으로 적용하는 것이 여기에서 가장 중요합니다. 지금 당장 고쳐야 할 사항, 가능한 한 빨리 (몇 시간, 며칠), 무기한으로 기다릴 수있는 결정을 내리십시오. 또한 무언가를 구할 수없고 절약 할 가치가없는 경우를 인식하는 법을 배웁니다 (예 : 라우터가 절반 만 녹아도 유일무이 한 경우라도 저장하거나 새 것을 구입하여 사후 게시하거나 사이트에 게시 할 수 없음) 간격을 일시적으로 채 웁니다).

상황 인식 유지

흥미로운 문제 나 아직 이해하지 못하는 문제에주의를 집중시키지 마십시오. 큰 그림과 가장 중요한 일을하는 데 계속 집중하십시오.

과학적 방법 사용

가설을 세우십시오. 이 가설을 어떻게 테스트 할 것인지 결정하십시오. 가설을 검정하기 위해 데이터를 수집하십시오. 확인 데이터도 확인하십시오. 가설을 세분화하고 조치를 수행 할 가설에 대한 충분한 확신이있을 때까지 필요한만큼주기를 반복하십시오.

실용적

지금은 교리의 시간이 아닙니다. 재해로부터 복구 할 때 여기 저기 몇 가지 단축키를 사용하는 것이 좋습니다. 이것은 본질적으로 기술 부채를 발생시키는 것입니다. 많은 회사에서 치명적인 실패는 치명적인 수익 손실을 의미합니다. 흔들리는 상황에 처해 있어도 회사의 생계를 위험에 빠뜨리고 위험에 처하게하는 것보다 실행하는 것이 좋습니다. 항상 그렇듯이 여기에서 판단은 매우 중요합니다. 때로는 서버 랙을 겨냥한 박스 팬을 올리는 것이 합리적이지만 때로는 그렇지 않습니다.

자신을 돌봐

이 비상 사태에 얼마나 오래 일했습니까? 마지막으로 물을 마신 시간은 언제입니까? 마지막으로 식사 한 시간은 언제입니까? 얼마나 깨어 있었습니까? 긴급 상황이 발생하여 화상을 입지 말고 수분을 공급하고 휴식을 취하십시오 (길고 며칠이 걸리는 경우).

채용 도움말

귀사에 동기를 부여하고 도움을 줄 수있는 재능있는 사람들이 거의 있습니다. 너무 많은 사람들이 뛰어 다니면서 서로 문제를 일으키는 것에주의하십시오. 또한 사람들을 "파이어 드릴"을 통해 짜증나게하는 것에주의하십시오. 이미 도움을주고 싶은 사람을 찾아 목표 업무를 수행하고 사람들이 서로 의사 소통하고 있는지 확인하십시오.

소통하다

의사 소통이 중요합니다. 미지의 것만 큼 무서운 것은 없습니다. 사람들이 무언가가 깨지는 것 외에 다른 것을 알지 못하면 X 시간 내에 백업 될 것이라는 빈 진술은 약간만 안심합니다 (X 시간이 지나도 여전히 안심하지 못하는 경우). 극도로 낙관적 인 WAG 시간 견적을 제공하도록 압력을 가할 수 있지만 이는 잘못된 과정입니다. 작업 중이라고 말하지 말고 X 시간으로 문제가 해결된다고 말하지 마십시오. 열린 상태로 프로세스를 보여주고 진행 상황과 좌절을 자세히 설명하십시오. 문제, 추적 과정 및 문제 해결 계획에 대한 통찰력을 제공하십시오 (사소한 사람들을 익사 시키지는 않음). 문제를 다루기 힘들지 않다는 것을 보여주십시오. 일이 올바르게 이루어질 것임을 보여주십시오.


2
매우 좋습니다- 가능 하면 채용 지원을 추가하겠습니다
Brent

@ 브렌트 아 예, 나는 그것을 추가하려고했습니다. 그래도 해당 섹션에 대한 올바른 문구를 찾지 못했습니다.
웨지





8

기본 사항을 먼저 확인하십시오. 어리석은 것처럼 보이지만

  1. 서버 설비의 전원이 켜져 있습니까? (외부에서 호스팅하는 경우)
  2. 호스팅 제공 업체가 다운 되었습니까?

문제가 업스트림 일 때 해결책을 찾는 데 많은 시간을 낭비 할 수 있음을 알고 있습니다.


2
yep-모두 다운되면 데이터 센터 및 지원 포럼을 확인하십시오. 온라인에 30 명이 있다면 보통 3 명이있을 때 팬을 때립니다.
Alister Bulman

6

나는 물건을 핑. 그 후 발생하는 일은 핑 결과에 따라 크게 다릅니다.


오늘이 방법을 사용했습니다. 많은 PC가 인쇄 할 수 없습니다. 데이터베이스 서버를 핑하려고했습니다. 프린터 라이센스 서버를 핑하려고 시도했지만 응답이 없습니다. 결과 = 서버 오류!
Swinders

좋은 지적;) 나는 다른 일을하기 전에 하루에 많은 시간을 할애합니다. 이것은 실제로 너무 많은 시간 절약입니다 : P
Marc-Andre R.


4

네트워크를 비난하십시오.

(그것은 농담!)



2

아직 아무것도 고치려고하지 마십시오.

실제적이고 근본적인 문제가 무엇인지 정확히 알고 있어야합니다. 이제 물건을 고치기 시작합니다. 해결해야 할 사항이 여러 개인 경우 지연 될 수있는 항목 (적어도 다음 근무일까지)을 신중하게 고려하고 지금 반드시 수정해야하는 항목을 고려하십시오.

그러나 가장 중요한 것은 : 모든 것이 작동하면 왜 "모든 것이 터져 버렸는가?" 이 문제가 다시 발생하지 않도록하려면 어떻게 하시겠습니까? 이 경우 쉽게 솔루션을 만들 것 어떤 단계가 있습니다 않습니다 다시는 그런 일이?


1

사람들에게 당신이 그 일을하고 있음을 알려주고 가능하면 상황이 언제 정상으로 돌아올 지에 대한 견적을 제공하십시오.

실제 문제 해결은 분명히 무엇이 잘못되었는지에 달려 있습니다. 나는 보통 다양한 서비스에 대한 "상태 확인"스크립트 모음을 유지합니다.


왜이 문제가 수정 되었습니까? 그것은 나에게 유효한 지적처럼 보인다.
Adriano Varoli Piazza

이것은 훌륭한 포인트입니다. 예방은 큰 재난을 피하는 열쇠입니다.)
Marc-Andre R.

1

케이블을 확인하십시오! 간단한 Eth0 케이블 교체로 문제가 해결되었을 때 다른 것들을 확인하는 데 시간을 잃었습니다 ...


실제로 케이블은 아무런 이유없이 죽지 않습니다. 스택, 랩 또는 기타 보호 방법이 적절하지 않고 모든 사람이 사용할 수 있다면 실제로 케이블이 파손될 수 있습니다. 그렇지 않으면 이유가 없습니다.
Marc-Andre R.

0

비상 계획이 있어야합니다.

필수 시스템은 자동 장애 조치 또는 문서화되고 테스트 된 복구 계획으로 설계해야합니다.

시스템이 중요할수록 더 많은 복원력이 필요하고 더 자동이어야합니다.

당신이 하나도 없다면, 그것은 중요하지 않았습니다.


0

이력서 백업이 안전한지 확인하십시오. :) 그런 다음

공통점을 찾으십시오. 영향을받는 모든 시스템에 공통적 인 사항

변경된 내용을 찾으십시오. 조직에서 공식적인 변경 관리를 진행해야합니다.

새 사람은 어디 있고 ... 보스는 어디 있나요? 그들 중 하나가 바로 가기를 했습니까? (그것은 단지 빠른 서버 재부팅 일뿐입니다.



0

성명서에서 특정 조치 세트를 제공하는 것은 어렵습니다. 첫 번째 움직임은 다음을 기반으로합니다.

  • 당신이있는 곳
  • 연락 한 사람에게서 정보를 얻을 수있는 양
  • 문제 해결 (또는 정보 추구)을위한 즉각적인 도구
  • 네트워크의 물리적 및 논리적 경로에 대한 지식
  • 당신이 얼마나 많은 도움을 (팀의 일부? 아니면 외로운 닌자?)

분명히, 당신은 침착하고 당면한 문제에 대해주의를 기울여야합니다. 네트워크 문제 해결 경험을 통해 다음과 같은 문제가 발생할 수 있음을 알게되었습니다.

  • 분리 된 케이블
  • 발표되지 않은 유지 보수 (다른 기술 '고정'사항)
  • 치즈 피자를 전자 레인지로 타서 랩탑 무선 연결이 끊어진 후 CEO가 회사를 완전히 파멸시키는 것에 대해 지나치게 반응하는 경우.

다음과 같은 범주에서 심각한 문제가 될 수 있습니다.

  • 물리적 운송 (연결)
  • 하드웨어 (라우터 \ 스위치 \ 서버)
  • 저장 용량 (액세스 할 수 없음 \ 손상된 \ 삭제됨)
  • 소프트웨어 (서비스> 잘못 구성된 \ 공격 된 \ 오프라인)

핵심 구성 요소는이 문제에 대해 얼마나 알고 있는지입니다. 당신의 기준은 무엇입니까? ( '시스템 다운'이란 어떤 관점에서?).



0

단순하게 시작하고 터무니없는쪽으로 일하십시오.

힘?

이더넷?

프로그램이 실행 중입니까?

...

외계인?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.