생산 시스템이 다운 될 때 어떻게 시원하게 유지합니까? [닫은]


26

이것은 우리 대부분에게 일어난 일입니다 ...

당신은 하루에 일하러 왔습니다. 모든 것이 정상인 것 같습니다-태양이 빛나고, 새가 chi니다. 그러나 당신은 매트릭스에있는 데자뷰 고양이를 생각 나게하는 몇 가지 이상한 일들을 발견했습니다.

사무실에 들어가서 전화가 많이 울리지 만 새로운 판매 홍보를하고있을 수 있습니다. 어두운 구름이 당신을 가리킬 때 당신은 정착합니다.

몇 시간이 걸리지 만 클라우드가 당신의 상사라는 것을 알고 있습니다. 일반적으로 그는 매일 아침 "Soooo Peeeeter, TCP / IP 보고서는 어떻습니까?" 일상적인 일이지만 오늘날 그는 일반적인 태도에 관한 모든 것을 잊어 버리고 개인 공간에 무례하게 침입했습니다. "좋은 아침", 침 흘리기, 욕설 및 저주. 그는 당신에게 사이버 이빨 호랑이, 공포와 공황을 모두 단단한 공에 압축하려고 노력하는 네안데르탈 인을 상기시킵니다. 어제부터 그가 만든 새로운 언어를 해독하려고하면 밤새 나쁜 일이 발생했다는 것을 이해하기 시작합니다. 프로덕션 시스템이 다운되었습니다.

이제 시스템은 일반적으로 9-5시의 정규 근무 시간 동안 클라이언트가 사용하지만 어떤 이유로 든 경고음에 대한 알림을받지 못했습니다 (30 세 미만의 사람들에게는 경고음이 울리는 휴대 전화와 같았습니다. 누가 경고음을 냈는지 알려주세요). 다음에 충전해야합니다.

이제 오전 8시 45 분이며 시스템은 오전 9시에 가동되어야합니다. 10 초마다 상사는 다른 고객이 시스템에 들어가는 데 문제가 있음을 알리는 또 다른 저주를 허용합니다. 또한 여러 계정 관리자가 이제 고객이 실제로 얼마나 고통을 겪고 있는지 이해하려고 상사를 맴돌고 있습니다.

모두가 최대한 빨리 시스템을 가동하는 데 의존하고 있으며 동시에 당신의주의를 산만하게함으로써 진행 상황을 방해하고 있습니다.

이런 상황에서 어떻게 시원하게 지내십니까?


34
1 단계 : programmers.stackexchange에서 300 단어 게시물을 작성하십시오.
kubi

8
지금 일어나고 있다고 말하지 않습니다. 잠깐만 확인해
볼게요

1
이것이 개발자에게 고유 한 문제입니까? 당신이 담당하고있는 것이 효과가 없다면, 그 "것"이 무엇인지에 관계없이 압력을 다룰 수 있어야합니다.
ChrisF

1
내 경험상 크고 작은 소프트웨어 하우스는 크고 작은 재난 복구 훈련을 수행합니다. 이걸 당신 상사에게 줬어요 당신이 훈련을하는 것이라면, 당신은 무엇을 기대해야하는지 알고 당신은 응답 시간을 느낄 수 있다는 것을 알고 있습니다. 프로세스가 자동화 될 수 있는지 평가할 수도 있습니다. 전원이 끊기면 어떻게됩니까? 사무실에서 화재가 시작되면 오프 사이트 위치가 있습니까? 서버가 사내 또는 외부에서 호스팅되고 있습니까? 실제로 비상 계획을 세우려면 스트레스를 받아야합니다.
황량한 행성

3
이것은 TheDailyWTF에 대한 엔트리의 시작과 같습니다!
그랜트 팔린

답변:


43

이 상황에서 다른 모든 사람들을 당신에게서 멀리 두어 다른 사람을 도울 수 있도록 상사에게 도움을 요청하십시오.

당신이 그것을 다시 실행하면, 상사에게 회의가 다시 발생하는 것을 피하기 위해 절차를 평가하고 설정하도록 요청하십시오.


1
+1. 재난 복구 훈련은 반응과 반응 시간을 측정하는 좋은 방법입니다. 부끄러운 일이 충분하지 않습니다.
황량한 행성

@ DP yah, 그러나 우리는 훈련이 진행되는 동안 실제 비상 사태에 사람들과 장비를 사용할 수 없다는 것을 의미하기 때문에 그렇게 할 수 없습니다 (예, 그 주장을 두 번 이상 들었습니다). 물론 충분한 인원과 장비가 있다면 한 팀에서 한 팀을 훈련시키고 다른 팀은 근무 중일 수 있습니다.
jwenting

@jwenting은 화재 경보를 저장하는 것처럼 들립니다.

9

가장 먼저 할 일은 산만하게 가능한 공손하게 제거하는 것입니다. 귀사에서 귀찮게하는 사람과 고객이 얼마나 나쁘게 일할 수있는 사람은 아무도 없습니다. 물론 상사가 미치광이라면 말보다 쉬운 일이지만, 그런 경우라면 다른 직업을 찾는 것이 좋습니다.

그런 다음 오류로 인한 실제 손실과 오류를 어떻게 신속하게 완화 할 수 있는지 신속하게 평가하십시오. 약간의 연습만으로도 로그 파일을 신속하게 검사 할 수 있습니다.이 계획은 조치 계획을 수립해야합니다.

문제가 복잡하면 가장 심각한 부분에 집중하십시오. 행동을 시작하기 전에 2-3 단계를 미리 생각해보십시오. 또한 행동하기 전에 계획을 철회하는 방법을 알고 있어야합니다.

그리고 가장 중요한 것은 당황하지 마십시오!


7

이와 같은 상황은 산업 제어 시스템에서 일반적입니다. 한밤중에 생산 라인이 다운되고 회사는 일반적으로 분당 수백 또는 수천 달러를 잃고 있으며 문제를 해결하기 위해 귀하를 찾고 있습니다. 당신은 이렇게 처리합니다 :

  1. 그들에게 당신이 아는 것을 설명하십시오
  2. 모르는 것을 설명하십시오 (그러나 문제를 해결하려면 알아야합니다)
  3. 모르는 것을 어떻게 알 수 있는지 설명하십시오.
  4. 소요 시간 추정치 제공 (범위 사용)
  5. 계획을 철저히 따르는 데 집중하면서 주변의 모든 것을 무시하십시오.

6

우선 재해 복구를 반복적으로 수행하여 사람들이 어깨 너머에 서 있지 않아도되므로 문제에 대한 의지가 없어도 문제를 진단하고 해결하기 위해 수행해야 할 조치를 정확히 파악할 수 있습니다. 회복 기술에 자신감이 생기면 압력과 스트레스가 훨씬 낮아집니다.

다음은 일하는 동안 사람들을 머리카락에서 꺼내는 것입니다. 당신의 상사는 그가 상사에게 갈 수있는 것을 원합니다. 그들에게 당신이하려는 일과 시간이 얼마나 걸리는지에 대한 정보를 제공 한 다음, 정기적으로 진행 상황을보고하면 특히 말한 것보다 시간이 더 오래 걸리는 것을 발견하게됩니다. 예, 진행 보고서는 문제를 해결하는 데 시간이 걸리지 만 호버링하는 보스와 사용자는 시간이 더 걸립니다. 나는 매번 진행 보고서를 보러 간다. 그들이 당신이 그들을 최신 상태로 유지할 것이라고 확신하면, 그들은 당신이 당신의 일을 더 많이하고 더 많은 것을 내버려두기를 신뢰합니다.

사용자가 일정 시간 동안 차단 될 예정인 경우, 이것이 옵션 인 경우 전자 메일을 보내거나 웹 사이트에 유지 관리를 위해 사이트가 다운되었고 다시 시도 할 수있는시기를 알리는 통지를 웹 사이트에 게시하십시오. (이것은 아마도 당신의 상사가 머리에서 그를 지키기 위해 누군가를 찾도록 할 수있는 일 중 하나 일 것입니다.) 사람들은 누군가가 문제에 대해 작업하고 있다는 것을 알 때 로그인 할 수없는 것에 대해 덜 까다 롭습니다. 문제가 해결되면 이메일을 발송 한 경우 동일한 그룹에 이메일을 보내 수정되었음을 알리십시오. 사람들이 이것을 잊어 버린 것을 몇 번이나 알 수 없으며 사용자는 여전히 로그인 할 수 없다고 생각합니다. 목표는 일을 시작하는 것이 아니라 사람들이 시스템을 다시 작업하게하는 것입니다.

심호흡을하고 (심호흡이 진정 됨) 문제에 빠지게됩니다. 비상시 뇌 시냅스가 정보를 평소처럼 빨리 끌어 올리지 못하기 때문에 어딘가에 적어 두어야 할 것들을 갖는 것이 좋습니다. 당신은 바보 같은 소리를 내고 싶지 않습니다.

생산 시스템을 지원하는 직종에있는 경우 일반적으로 응급 상황에서 잘 반응하는 사람이 가장 좋습니다. 나는 당신이 이것을 정말로 배울 수 있는지 확실하지 않습니다. 당신 앞에서 말을 타는 사람이 떨어져 나와 내 인생에서 가져온 무작위가 아닌 예가 땅에 피를 흘리면 입을 벌리고 서있는 사람입니까, 아니면 사람입니까? 구급차를 부르고 출혈에 압박 붕대를 감아 말을 잡도록 지시하는 사람은 누구입니까? 당신이 첫 번째 유형의 사람이라면 아마도 이것이 당신에게 맞는 일이 아닐 수도 있습니다.


2

그들에게 이것이 백업 서버가 필요한 이유라고 말하십시오. 즉, 첫 번째 서버가 다운되면 즉시 전환 할 수있는 기본 서버와 동일하게 실행되는 두 번째 서버를 의미합니다.


백업 서버가 켜져 있는데 기본 서버와 동일한 문제가있었습니다. 하드웨어 비용을 두 배로 늘리고 구성 비용을 추가했으며 총 비용 낭비였습니다. 고 가용성 작업을 수행하는 경우 반드시 하드웨어 크기를 문제의 크기로 조정해야합니다.
Scott Whitlock 2012

백업 시스템 중 하나 (극) 실시 예는 일차 시스템과 같은 버그 인 영향을받지 아리아 5 행 (501)
안드레 HOLZNER

2

당신이 만든 문제에 대해 당신에게 화를내는 사람들에 의해 사방에 둘러싸여 있으면 그것은 나쁘지만, 당신이 만들지 않은 문제라면 두 배나 나쁩니다. 클라이언트가 잘못 구성한 것이 두 번 이상 발생했습니다. 즉, 결함이 클라이언트와 통신하는 중입니다 (결함이 고객의 말을 듣지 않는지 또는 마케팅 담당자가 잘 설명하지 않았는지 여부는 알 수 없음).

그들이 망쳤다 고 어떻게 설명합니까? 고객이 항상 옳다고 생각하는 것보다 더 잘 모르기 때문에 특히 상사가 목을 쉴 때 쉬운 일이 아닙니다.

이런 상황에서 어떻게 시원하게 지내십니까? 상사에게 빨리 일을하면 빠를수록이 문제는 더 빨리 해결 될 것입니다.


1

이 이벤트를 프로덕션 시스템을 최대한 빨리 (9am 이전이 아닌 경우 ;-) 다시 실행하여 비즈니스에 얼마나 소중한 지 보여줄 수있는 기회로 본다.

분명히, 내가 처음부터 그것을 깨지 않기를 바라고 ;-)


1
  • sh_t 발생
  • 문제에 대한 해결책이 있어야한다
  • 세계의 누군가가 해결책을 알고 있다면, 나는 그들 중 하나가 될 수 있습니다
  • 해결책이 없으면 공황이 도움이되지 않습니다.
  • 다시, sh_t 발생

0

문제를 해결하면 상사에게 다시 연락 할 것을 확실히 요청하십시오. 이러한 상황에서 경영진은 보통 다른 사람들이 최대한 빨리 해결하고 나중에 "관심이있는"사람과 관련하여 다른 사람들이 참여하게합니다. 그것은 업계에 관계없이 어떤 회사의 표준이기도합니다. 사업에 관해서는 고객은 보통 왕입니다 !!


0

그런 상황은 모든 것에 대한 철저한 문서화와 모든 종류의 상황을 다루는 철저한 계획을 갖도록 동기를 부여합니다.

모든 가능한 문제를 예측할 수는 없더라도 더 준비하고 체계적으로 정리하고 문서화하여 뒤에서 일할 수 있습니다.


1
문서를 사용하여 생산 문제 (예 : 시스템 다운)를 해결 한 적이 없습니다.
Marcie

1
아니요, 그러나 사양, 테이블 정의, 서버 설정과 같은 것을 찾아 보려면 문서화해야합니다.
crosenblum

0

3 차 세계 대전 5 분 동안 B52G 폭격기에서 8 년간 유지 보수 작업을하였습니다. 그것은 나를 위해 모든 것을 원근법으로 만듭니다.

다운 프로덕션 시스템은 중요하지만 수백만 또는 수십억의 사람들을 죽이지 않을 것입니다.

무엇이 잘못되었는지, 원인을 찾아서 고치십시오. 중요한 사람들과 분명한 의사 소통을하고 정보를 유지하십시오. 상사에게 현재하고있는 일과 업데이트 할 수있는 시점을 알려 주면 "고정 된"메시지와 대화가 계속 진행되는 것을 막을 수 있습니다.

사후 검토를 통해 앞으로 그러한 사건의 영향을 예방하고 제한하는 방법을 알아냅니다.

통화 중일 경우 휴대폰이나 신호음이 방전 된 배터리를 사용하는 것은 매우 전문가답지 않습니다. 이것은 일반적인 시나리오로 구성되어 있지만, 이것이 나를 위해 일하는 사람에게 일어난다면, 진지한 토론이있을 것이며, 반복되면 더 이상 나를 위해 일하지 않을 것입니다. 그렇습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.