당신이 겪은 시스템 관리자 사고에 대한 재미있는 이야기를 찾고 있습니다. CEO 이메일 삭제, 잘못된 하드 드라이브 포맷 등
나는 내 이야기를 답으로 추가 할 것이다.
당신이 겪은 시스템 관리자 사고에 대한 재미있는 이야기를 찾고 있습니다. CEO 이메일 삭제, 잘못된 하드 드라이브 포맷 등
나는 내 이야기를 답으로 추가 할 것이다.
답변:
linux "killall"명령 (지정된 이름과 일치하는 모든 프로세스를 종료하고 좀비를 중지하는 데 유용함)과 solaris "killall"명령 (모든 프로세스를 종료하고 시스템을 중지 함)의 차이점을 발견하는 것이 재미있었습니다. 피크 시간대 중간에 모든 동료가 일주일 동안 당신을 비 웃게합니다).
hostname -f
Linux에서는 Linux에서 정규화 된 도메인 이름을 인쇄합니다. Solaris에서는 호스트 이름을로 설정합니다 -f
.
당시 Netscape의 제품인 회사 웹 프록시를 담당했습니다. 관리 양식 (웹 기반 인터페이스)에서 놀고있는 동안 Delete User Database 라는 큰 (그리고 맹세합니다) 버튼이 있었습니다. 문제 없습니다. 내가 그것을 칠 때 그것이주는 옵션이 무엇인지 보자. 옵션이 없으면 확실히 확인 메시지가 나타납니다.
예, 확인이 없습니다. 옵션이 없습니다. 더 이상 사용자가 없습니다.
그래서 솔라리스 Sysadmin에게 가서 테이프에서 복원해야 할 필요가 있다고 말했습니다. "그 상자를 백업하지 않습니다."
"어, 다시 오세요"나는 반박했다.
"저는 그 상자를 백업하지 않습니다. 백업 회전에 추가 할 항목 목록에 있지만 아직 그 위치를 찾지 못했습니다."
"이 서버는 거의 8 개월 동안 생산되었습니다!" 나는 비명을 질렀다.
어깨를 으 ,하며 대답했다. "죄송합니다."
몇 년 전 제가 근무했던 회사는 NT 4.0 서버의 야간 백업을 Jaz 드라이브 (예 : 대용량 zip 디스크)로 실행하는 클라이언트를 가지고있었습니다 .
밤새 예약 된 작업으로 실행되는 배치 파일을 설정했습니다. 매일 아침 그들은 드라이브에서 지난 밤 디스크를 수집하고 저녁에 떠나기 전에 다음 디스크를 순서대로 삽입합니다.
어쨌든 배치 파일은 다음과 같습니다 (Jaz 드라이브는 F : 드라이브였습니다) ...
@echo off
F:
deltree /y *.*
xcopy <important files> F:
어쨌든 그들은 어느 날 밤 디스크를 넣는 것을 잊었습니다. 드라이브 F :에 대한 변경이 실패했습니다 (드라이브에 디스크가 없음). 배치 파일이 계속 실행되었습니다. 배치 파일의 기본 작업 디렉토리? 씨:. 처음으로 백업 루틴 이 서버를 파괴 하는 것을 본 적이 있습니다 .
그날 sysadminning (및 예외 처리)에 대해 조금 배웠습니다.
짐.
추신 : 수정? "deltree / y F : \ *. *".
root @ dbhost # 찾기 / -name core -exec rm -f {} \;
나 : "당신은 들어갈 수 없습니까? 알겠습니다. DB 이름은 무엇입니까?"
Cu : "핵심"
나 : "아."
나는 모든 사람들이 "내가 젊었을 때"로 다시 이야기하지 않는 것처럼 이야기를 평가하는 방식을 좋아합니다. 가장 노련한 전문가조차도 사고가 발생할 수 있습니다.
내 자신의 최악의 순간이 너무 나빠서 여전히 생각하고 두근 두근합니다.
프로덕션 데이터가있는 SAN이있었습니다. 회사에 중요합니다. 내 "멘토"는 디스크 공간을 확보하기 위해 파티션을 확장하기로 결정했습니다. 이것이 어디로 가고 있는지 알 수 있습니까? 그는 SAN 소프트웨어가 생산 시간 내에이 라이브를 수행 할 수 있으며 아무도 눈치 채지 못할 것이라고 말했다. 알람 벨이 울리기 시작했지만 눈에 띄게 침묵했습니다. 그는 아무런 문제없이 "전까지 여러 번"해냈다 고 말했다. 그러나 여기에있는 것이 있습니다. "확실합니까?"라는 버튼을 클릭하라는 메시지가 나타납니다. 내가 회사를 처음 접했을 때 나는이 사람이 자신이 무엇을 말하는지 알고 있다고 생각했습니다. 큰 실수. 좋은 소식은 LUN이 확장되었다는 것입니다. 나쁜 소식은 ... 잘 알았습니다 .Windows 상자에서 디스크 쓰기 오류가 발생했을 때 나쁜 소식이 있다는 것을 알았습니다.
갈색 바지를 입고 다행입니다.
점심 시간에 1TB의 데이터가 사라진 이유를 설명해야했습니다. 정말 정말 나쁜 날이었습니다.
실제로 좋은 원칙입니다. 의심스러운 일을하기 전에 문제가 발생했을 때 경영진에게 설명해야한다고 상상해보십시오. 자신의 행동을 설명하는 좋은 대답을 생각할 수 없다면 그렇게하지 마십시오.
Nagios는 하루 아침 업무 시간이 중요하지 않은 서버에 연결할 수 없다고 말하기 시작했습니다. 좋아, 서버 룸으로 하이킹. 이 서버는 02 년에 구입 한 Dell 1650 인 오래된 서버이며 1650에 하드웨어 문제가 있음을 알고있었습니다. PFY는 전원 버튼을 찌릅니다. 아무것도. DRAC 없이는 섀시 전원을 켤 필요없이 BMC 로그를 검사 할 수있는 방법이 없으므로 BMC의 오류 보호를 무시하는 '전원을 켜십시오'라는 메시지를 다시 5 초 동안 누르십시오.
기계가 POST를 시작한 다음 다시 죽습니다. 나는 그 위에 서서 "연기 냄새가납니다." 서버를 레일에서 빼내고 전원 공급 장치 중 하나가 따뜻하게 느껴지므로 PFY가 서버를 잡아 당겨 상자를 닫으려고합니다. "아니요. 전원 공급 장치 연기가 아니라 마더 보드 연기입니다."
케이스를 다시 열고 타는 냄새의 원인을 찾으십시오. 인덕터 코일과 커패시터가 마더 보드의 전압 조정기에서 끊어졌으며 용융 구리 및 커패시터 go이 모든 것을 가로 질러 분사되어 많은 물건을 줄이며 기본적으로 큰 혼란을 초래합니다.
나에게 최악의 부분은 내가 탄 마더 보드의 냄새와 탄 전원 공급 장치의 차이를 인식하기에 충분한 하드웨어를 피 웠음을 인식하고 있었다.
3 일 전에 (심하게) Windows Server 2008 파일 서버에 서비스 팩 2를 설치하여 학교 서버에 원격으로 로그인했습니다.
교사가 연말 보고서 카드 작성에 로그온하지 않은 늦은 밤에 필요한 재부팅을 예약하기로 결정했습니다. 나는 다음과 같은 것을 입력했다 :
23:59 "종료 -r -t 0"
... 잘 작동했을 것입니다.
그러나 나는 나 자신을 추측했다. '종료'구문이 정확합니까? 입력하여 사용 도움말을 보려고했습니다.
종료 / h
RDP 연결이 즉시 끊어졌습니다. 당황, 나는 구문에 대해 구글을 공격했다. 빠른 검색 결과 Server 2008 버전의 시스템 종료에는 / h 스위치가 포함되어 있으며,이 스위치는 컴퓨터를 최대 절전 모드로 전환합니다.
선생님들은 몇 분 안에 전화를 걸어서 더 이상 작업하고 있던 성적표를 열거 나 저장할 수 없다고보고했습니다. 외부에 있었고 서버 룸이 잠겨 있었기 때문에 교장에게 직접 전화하여 기계 전원을 다시 켜는 과정을 안내해야했습니다.
오늘 저는 사과 형태로 모든 사람에게 수제 쿠키를 가져 왔습니다.
/?
처음!
man shutdown
. 나는 내가 문제를 일으키지 않을 것이라는 것을 안다 man
!
이전에는 회사 내에서 들어 오거나 떠났거나 머무른 모든 메일을 기록하고 보관하는 훌륭한 자체 시스템이있었습니다.
사서함 전체를 날려 버렸습니까? 문제 없어요! 누군가 일주일 / 월 / 년 전에 보낸 메일을 찾고 있지만 누가 메일을 보냈는지 또는 제목이 무엇인지 기억할 수 없습니까? 문제 없어요! 2 월부터 특별 폴더까지 모든 것을 다시 제공합니다.
어느 시점에서, 회사의 CEO는 경쟁 업체와 내부 영업 사원 사이에서 전송되는 메일을 의심하여 모니터링해야했습니다. 그래서 우리는 매일 밤 실행하는 스크립트보다 스크립트를 설정하고 전날부터 CEO에게 관련 메일을 전달했습니다. 문제 없어요!
한 달 뒤, 이중 플러스 긴급 문제라는 말이 계속 높아졌다. CEO가 $ OTHERCOMPANY에게 보낸 메일 목록을 읽으면서 다음과 같은 내용을 보았습니다.
To: somebody@$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)
당연히 CEO는 중요한 사람이며 모두 Outlook에서 "Send Read Receipt"대화 상자를 클릭하기에는 너무 바빴으며 클라이언트가 모든 것을 보내도록 구성했습니다. 모니터링 필터에 의해 포착 된 메시지 중 하나에 읽기 요청이 설정되었습니다. Outlook이 무엇을했는지 알아? 확실히 '밀폐'모니터링을 강화했다.
다음 작업 : 메일 필터에 규칙을 추가하여 CEO로부터 해당 회사로 나가는 읽음 확인을 차단합니다. 예, 가장 쉬운 방법이었습니다. :)
아, 내 발은 아직 젖어 있었을 때 약 10 년 전 이었어요. 나는 모든 프로그래머 컴퓨터에 배터리 백업을 설치하는 기쁨을 가졌습니다. 또한 정전을 경고하고 올바르게 종료하기 위해 소프트웨어를로드하기를 원했습니다.
그래서 컴퓨터에서 모든 것을 먼저 테스트하고 모든 것이 제대로 작동하는지 확인했습니다. 전원 코드를 뽑으면 화면에 메시지가 나타납니다. "외부 전원 손실, 시스템 종료 시작"
그래서 나는 생각했습니다. 그러나 이상한 이유로, 그 메시지를 네트워크 메시지로 보냈기 때문에 회사의 200 개 이상의 컴퓨터가 모두 100 명 이상의 사용자가 프로그래머가있는 메시지를 받았습니다.
예, 대량 괴물에 대해 이야기하십시오!
나는 잠시 동안 그 장소에서 내 머리를 낮게 유지했다!
종종 Solaris 시스템에서 "sys-unconfig"명령을 사용하여 시스템 이름 서비스, IP 주소 및 루트 비밀번호를 재설정합니다. 나는 사용자 시스템에 있었고 건물 설치 서버에 로그인하고 루트로 무언가를 찾은 다음 다른 시스템에 로그인하지 않았 음을 잊어 버렸습니다 ( "설명이 아닌"# "프롬프트)"sys-unconfig "명령을 실행했습니다.
# sys-unconfig
WARNING
This program will unconfigure your system. It will cause it
to revert to a "blank" system - it will not have a name or know
about other systems or networks.
This program will also halt the system.
Do you want to continue (y/n) ? y
Connection closed
#
"connection closed"메시지가 천천히 패닉 상태로 바뀌 었습니다. 명령을 실행할 때 어떤 머신에 로그인했는지
이것의 최악의 부분은 동료들이 나에게 힘든 시간이 아니었기 때문에 한 달 후에 같은 일을했다는 것입니다.
꽤 좋은 것이 있습니다. 분명히, 그것은 sysadmin으로서 나의 시간 이전이었다. 그러나 아직도 기술과 관련이 있기 때문에 나는 그것을 추가 할 것이라고 생각했다.
당시에는 USAF의 위성 통신 / 광대역 기술로 일하고있었습니다. 최근에 기술 학교를 졸업 한 후, 나는 한국에 주둔하고 있음을 알았습니다. 정거장에 도착하자마자 한동안 그곳에 있었던 "큰 녀석들"과 함께 남쪽으로 내려가 실제로 실제 장비 (예 :`생산 ') 장비로 작업 할 수있는 기회가 생겼습니다.
나는 승무원과 함께 내려가 열망하는 젊은 기술자로서 약간의 충격을 받았으며 실제 군용 음성 및 데이터 트래픽을 전달하는 실제 장비에 손을 댈 것이라는 기대에 매우 흥분했습니다.
저를 천천히 시작하기 위해, 그들은 저에게 매뉴얼을 건네고, 예방 유지 보수 섹션으로 돌아가서 몇 개의 큰 디지털 멀티플렉서로 채워진 4 개의 랙 방향을 알려주었습니다. 장비는 충분히 쉬웠습니다. 우리는 기술 학교에서 같은 장비를 다루었습니다.
매뉴얼 읽기의 첫 페이지; "Ditigal 멀티플렉서에 전원을 공급하십시오. 양쪽 후면 스위치를 모두 ON 위치로 돌리고 장비의 전원이 켜질 때까지 기다린 다음 테스트를 시작하십시오." 나는 올려다 보았고 이미 전원이 공급되었습니다!
나는 당황했다. 어떻게 진행해야할지 몰라 나는 최선을 다했다. 으음.
그는 나를 쳐다 보며 웃었다. "아니요, 괜찮습니다. 점검표의 해당 부분을 무시해도됩니다." 그런 다음 그는 내 얼굴을 보았을 때 (학교에서 가르치지 않았으므로 체크리스트의 어느 부분도 무시하지 않았으므로 그렇게하면 특정 사망과 파괴가 발생했습니다) 그는 그의 얼굴을 진지하게 보았습니다. "그 부분 만 무시하고 나머지 부분은 편지에 따라!"
나는 다단계 PM 지침을 꼼꼼히 살펴 보았다. 조개처럼 기쁘고, 스마트 한 기술이이 중요한 일을하게 된 것을 자랑스럽게 생각한다.
이 거대한 멀티플렉서에 대한 5 번째와 6 번째 예방 유지 보수 점검표 사이에서 나는 주변의 활동 수준이 높아지는 것을 알아 차렸다. 전화가 울리고 사람들이 빠르게 움직였습니다. 눈부신 표정이 바뀌 었습니다.
마침내 한 무리의 사람들이 저를 향해 달려갔습니다.
"이봐! 우리는 데이터 트래픽이 급격히 중단되는 것을보고 있으며 현재 작업중인 랙으로 돌아가는 경로를 격리 / 추적했습니다. 이상한 점이 있습니까?"
(그 시점에서 그는 PM을 수행 한 첫 번째 멀티플렉서 그룹으로 향한 다른 문제 해결사 중 한 사람에 의해 차단되었습니다.)
"거룩하다! 꺼 졌어! 꺼 졌어 !!!!"
짧은 순서로, 그들은 서둘러 매뉴얼의 첫 번째 단계 인 "두 후면 스위치를 모두 ON 위치로 돌리십시오." 중요한 장비를 끄면
내 지혜를 무서워, 나는 그에게 내가 따르고있는 점검표를 건네 주었고, 나는 전혀 벗어나지 않았다고 맹세했다. 그가 지시 한대로 '서한까지'따라 갔다.
잠시 후 그는 웃으면 서 문제가있는 곳을 지적했다.
매뉴얼에서 예방 유지 보수 점검 목록의 최종 단계는 다음과 같습니다.
"최종 프로브 판독 값을 기록하고, 전면 패널을 닦아내고 먼지와 미립자를 모두 제거한 다음 후면 전원 스위치를 모두 OFF 위치로 돌리십시오."
:)
그것은 일종의 sysadmin 사고입니다. sysadmins가 때때로 지점 A에서 지점 B까지 많은 수의 기계를 물리적으로 운반 해야하는 한 (A와 B는 항상 엘리베이터가없는 건물의 여러 계단으로 분리되어있는 것처럼 보입니다). 오늘의 n 번째 여행에서, 나는 지하실 적재 레벨에서 3 명의 비행을 멈추고 누군가와 내려가는 사람과 대화를 나누고, 열린 계단의 내부 손잡이에서 훔친 전체 크기의 타워 승 / 스테이션을 준비했습니다. 그리고 ... 글쎄, 당신은 추측했다 ... 그것에 약간의 그립을 잃었다. 우물 아래로 똑바로 뛰어 들었고 바닥에 닿았을 때 그 기능은 그다지 중요하지 않았습니다! 총 회수 가능한 부품 : 2 개의 RAM 스틱, 1 개의 플로피 드라이브 및 1 개의 ISDN 카드 (Hermstedt 엔지니어링 담당자에게 신의 축복을!) 다른 모든 것들은 금이 갔고
하나님의 은혜로 아무도 밑으로 걷지 않았습니다. 저에게 감사하게도 처음으로 상사가 되었기 때문에 제 직업을 유지해야했습니다. 한 시간 정도 매우 아 very습니다.
도덕 : 중력이 항상 이깁니다!
누군가를 위해 시스템을 다시로드하고 수동 백업 프로세스 중에 "사용중인 다른 프로그램이 있습니까?"라는 질문을했습니다. "컴퓨터에서 다른 중요한 일이 있습니까?"
그는 여러 번“아니오”라고 말했다.
나는 드라이브를 확신하고 포맷했다.
약 30 분 후 그는 "오 나의 신"이라고 말하고 양손을 머리에 댔다.
그가 10 년이 넘는 시간 동안 전문 프로그램에서 책을 쓰고있는 것으로 나타났습니다. 프로그램이 프로그램 파일 디렉토리에 사용자 데이터를 저장하는 데 사용되었을 때 다시 나타났습니다.
ooooo 득.
그는 나에게 화를 내지 않았지만 냉정한 느낌이었습니다.
이것은 나에게 일어나지 않았지만…
클라이언트가 제공하는 Linux 컴퓨터에서 실행되는 소프트웨어를 만든 회사에서 일하고있었습니다. 우리는 본질적으로 기계를 '인계'하고 사양에 맞게 완전히 구성하며 모든 관리 및 모니터링을 수행합니다. 기본적으로 우리는 수백 명의 고객을 위해 수천 대의 서버를 관리하는 10-15 명의 시스템 관리자로 구성된 팀이었습니다. 실수가 일어날 수밖에 없었다.
우리 팀 중 하나가 서버에서 몇 가지 문제 (백업, 나는 믿습니다)를 발견하고 서버에서 fsck를 실행하기로 결정했습니다. 그는 모든 관련 서비스를 중지하고 시스템에 최근에 백업을 수행했는지 확인한 다음 fsck를 실행했지만 파일 시스템이 마운트되었다고 불평했습니다. 우리는 원격에 있었고 원격 액세스 (DRAC, ILO 등)가 없었기 때문에 fsck를 수행 할 수 없었지만 조심하면 파일 시스템이 마운트 된 상태에서 안전하게 수행 할 수 있다고 확신했습니다.
그는 루트 파티션에서 fsck를 실행하여 예측 가능한 결과와 함께 직접 시도하기로 결정했습니다. 그는 루트 파티션을 손상시키고 더 이상 부팅 할 수 없었습니다.
혼란스러워서 우리 팀장과 대화를 나 talk습니다. 리드는 자신이 그렇게 할 수 없다고 확신했으며 팀원은 'Sure you can!'라고 말하고 리드의 키보드를 가져 가서 리드의 루트 파티션에서 fsck를 실행하여 할 수 있음을 보여주었습니다. HIS 루트 파티션이 완전히 손상되었습니다.
최종 결과? 팀원의 테스트 덕분에 고객 데이터가 손실되지 않았습니다. 직원의 생산성은 2 일 단축되었지만 고객 시스템의 데이터보다 훨씬 적은 가치가있었습니다. 그리고 기록을 위해? 마운트 된 드라이브에서 fsck를 실행할 수 있지만 데이터를 확인하기 위해서만 가능합니다. 수리하지 마십시오. 그것은 팀원의 실수였습니다.
-
내 이야기를 추가하기 위해 같은 회사에서 일하고 있었고 사용자 암호를 재설정하려고했습니다. Google 시스템은 이전 비밀번호 해시를 추적하고 비밀번호 복제를 거부했기 때문에 필요한 비밀번호로 설정을 거부했습니다. 메커니즘은 간단합니다. 데이터베이스에서 가장 최근의 해시와 비교하여 비밀번호를 확인했습니다.
(그리고 기록을 위해, 그것은 공유 계정 이었으므로 모든 사람이 새 암호가 실용적이지 않다는 것을 알리기 위해 이전 암호 여야했습니다)
방금 사용자 데이터베이스로 이동하여 이전 레코드를 사용하도록 새 레코드를 삭제하기로 결정했습니다. 그것은 모두 SQL (고대 버전의 Sybase를 실행)이므로 간단합니다. 먼저, 나는 기록을 찾아야했다.
SELECT * FROM users_passwords WHERE username='someuser';
나는 그가 지키고 싶은 오래된 기록을 찾았다. 그 앞에 두 개가 더있었습니다. 나는 영리하고 오래된 레코드보다 새로운 것을 삭제하기로 결정했습니다. 결과 집합을 보면 이전 암호가 데이터베이스에서 ID # 28이고 새 암호가 ID # 수천 (매우 사용량이 많은 시스템)임을 알았습니다. 간단합니다. 모든 오래된 행은 28보다 컸습니다.
DELETE FROM users_passwords WHERE id > 28;
간단한 행 정리를 수행하고 '212,500 개의 행이 영향을받는 것'을 보는 것보다 나쁘지 않습니다. 다행히도 사용자 ID가있는 두 개의 마스터 데이터베이스 서버가 있었지만 Sybase (적어도 우리 버전)는 자동 복제를 지원하지 않으므로 이전 레코드를 자동으로 지우지 않았습니다. users_passwords 테이블 덤프를 가져 와서 다시 가져 오는 것은 쉬운 일이 아닙니다. 그래도 꽤 큰 'oh f ** k!' 순간.
내가 좋아하는 또 다른 것 :
컴퓨터와 컴퓨터에 로컬 레이저 프린터를 설치할 때 컴퓨터의 UPS에 모두 연결하는 것이 좋았습니다. 데스크탑 UPS에 꽂혀있을 때 로컬 레이저 프린터로 인쇄 해 본 적이 있습니까? 글쎄, 당신이 모른다면, 그것은 모든 앰프를 당기는 경향이 있습니다 ... 컴퓨터를 다시 시작하는 ... 그리고 인쇄 작업이 끝나지 않습니다 ...!
'전화를받을 때마다 컴퓨터가 다시 시작되고 인쇄되지 않습니다 !!! '?
죄송합니다!
JFV
입력 된 kill 1
루트로. init
그리고 그녀의 모든 아이들이 죽었다. 그리고 모든 자녀들. 등. 죄송합니다.
내가 입력하려는 것은 kill %1
내가 한 일을 깨달았을 때 나는 BIG 울 베일 분류 기계의 제어판으로 달려 비상 정지 버튼을 쳤다. 내가 방금 기계를 제어하는 소프트웨어를 죽였 기 때문에 기계가 비트로 리핑하는 것을 막았습니다.
우리는 정전 도중에 UPS가 구성된로드의 112 %에서 실행되고 있음을 확인했습니다. 우리가 당시 발전기에서 실행했을 때 이것은 큰 문제가 아니 었습니다.
그래서 우리는 백업 전원 케이블을 뽑아 UPS의 전력 사용량을 줄였습니다 (둘 중 하나는 다른 것보다 훨씬 큼). 우리는 서버 룸을 운영하는 네트워크 스위치에 도달했습니다 (이것은 회사의 모든 내부 서버가있는 서버 룸이었고 고객은 다른 서버 룸의 서버를 향했습니다). 이 스위치는 3 개의 전원 공급 장치가있는 대규모 엔터프라이즈 급 스위치였습니다. 전원 공급 장치는 N + 1이므로 스위치를 실행하려면 두 개만 필요했습니다.
우리는 케이블을 집어 뽑았습니다. 불행히도 우리에게 다른 두 개는 하나의 전원 스트립에 꽂혀 있는데, 두 개의 전원 공급 장치에 부하가 가해지 자마자 폭발했습니다. 그런 다음 시스템 관리자가 당황하고 세 번째 케이블을 꽂았습니다. 스위치의 전원이 켜지면서 스위치의 전체 부하가 단일 전원 공급 장치에 공급되었습니다. 전원 공급 장치가 종료되는 대신 내 얼굴에서 12 인치가 아닌 스파크가 발생하여 서버 랙으로 다시 뛰어 들었습니다.
본능에서 나는 옆으로 뛰어 들려고했지만 불행히도 내 왼쪽에는 벽이 있었고, 두 개의 오른쪽은 매우 큰 6'4 "시설 녀석이었다. 랙에 전체를 넣거나 시설 직원을 건드리지 않고 Compaq 랙 (얇은 메쉬 전면이있는 랙)
내 경력의 어느 시점에서 나는 회사에서 법적 조사를 수행하기 위해 달리 지시 할 때까지 모든 이메일이 "오늘"부터 유지되도록 요구했습니다. 교환 환경 (매일 1TB)의 일일 전체 백업을 약 1 년 동안 저장 한 후 공간이 부족하기 시작했습니다.
거래소 관리자는 이메일의 매 8 번째 사본 만 보관할 것을 제안했습니다. 이를 위해 며칠 동안 교환 데이터베이스를 복원하고 필요한 이메일 (조사 대상으로 지정된 사람들)을 추출하여 다시 아카이브하도록했습니다. 모든 백업에 대해 8 일마다 이메일을 발송했습니다. 교환에 "삭제 된 항목"이 8 일 동안 데이터베이스에 유지되는 매개 변수 세트가 있으므로 8 일이 선택되었습니다.
그들이 각 아카이브를 마친 후에는 돌아가서 아카이브했던 것보다 오래된 백업을 삭제합니다.
TSM은이를 수행하는 쉬운 방법이 없으므로 백업 데이터베이스에서 오브젝트를 수동으로 삭제해야합니다.
오늘 날짜와 해당 날짜의 차이를 사용하여 날짜 계산을 통해 특정 날짜보다 오래된 모든 백업을 삭제하는 스크립트를 작성했습니다. 어느 날 나는 날짜 계산을 할 때 오타를 만들고 2007 년 6 월 10 일 대신 7/10/2007로 날짜를 입력하고 스크립트를 실행 한 것을 제외하고 약 한 달 분량의 백업을 삭제해야했습니다. 추가로 한 달 분량의 데이터를 삭제했습니다. 우연히 이것은 매우 중요한 소송의 일부였습니다.
그런 다음 스크립트에 몇 가지 단계를 추가하여 데이터 삭제를 확인하고 삭제할 내용을 보여줍니다.
다행히도 그들은 우리가 보존하기 위해 열심히 노력한 데이터를 전혀 사용하지 않았으며 여전히 내 직업을 가지고 있습니다.
하루 종일 또는 성능을 추적하고 거대한 메인 프레임을 조정 한 후 (모든 대기 백업 사이트가 실제로 다시 부팅되고 완전히 동기화되었다는 데 동의하기까지 몇 시간이 걸리는 짐승을 알고 있습니다.) -p는 이제 랩톱 프롬프트에서 뚜껑을 닫고 시리얼 케이블을 메인 프레임에서 빼내고 시원한 라거 유리를 기대했습니다.
노트북이 여전히 행복하게 X를 표시하는 동안 갑자기 메인 프레임을 회전시키는 소리가 들립니다.
컴퓨터가 다시 완전히 온라인 상태가 될 때까지 기다리는 동안 ACPI를 랩톱에서 사용할 시간을 갖도록 결정하여 랩톱을 종료하려는 유혹을받지 않았습니다.
이 사고는 발생하지 않았지만 언급 할 가치가 있습니다.
새 회로에서 대역폭 테스트를 수행하기 위해 많이 사용하는 데이터 센터로 보냈습니다. 경계 실 / IDF에 도착하여 테스트 라우터의 랙 중 하나에서 지점을 발견하고 연결 한 다음 테스트를 시작했습니다. 불행히도, 프로덕션 랙 라우터는 정확히 다음 랙에있을뿐 아니라 테스트 라우터와 동일한 제조사 및 모델이라는 것을 완전히 알지 못했습니다.
테스트가 끝나면 전원 스위치를 오프 위치로 누르기 시작했습니다 (슬로우 모션으로 상상해보십시오 ...). 압력을 가하는 것처럼 라우터가 나에게 달려갔습니다. 생산을 중단했습니다. 내 마음이 멈 췄고 거의 ... 글쎄, 당신의 상상력을 사용하십시오.
나는 데이터 센터의 MDF를 무시하고 창백하게 보냈지 만 동시에 나는 여전히 직업을 가지고 있었다.
실수로 누군가의 계정을 삭제했으며 삭제하려고했던 이름과 이름이 혼동되었습니다. Opps
멋진 부분은 그들이 무슨 일이 있었는지 전혀 모른다는 것입니다. 그들이 로그인 할 수없는 전화를 받았는데, 삭제 된 계정에 대해 페니가 떨어졌습니다.
그들과 전화를하는 동안, 나는 그들의 계정을 재 작성하고, 이전 메일 박스를 다시 첨부했다 (고맙게도 Exchange는 메일 박스를 즉시 삭제하지 않는다).
그런 다음 방금 재설정 한 비밀번호를 잊어 버렸다고 비난했습니다. :)
실수로 내 Gentoo Linux 상자에 tar.gz 파일을 잘못된 위치에 설치했고 파일이 모든 곳에 남았습니다. 이것은 당시 1999, 19 년경에 있었어야합니다 (아래 의견에 감사드립니다)
나는 괴짜이기 때문에 각 파일을 수동으로 진행하는 작업에서 스스로 스크립트를 작성하기로 결정했습니다.
그래서 나는 시도했다 :
tar --list evilevilpackage.tar.gz | xargs rm -rf
tar가 프로그램이 사용하고있는 모든 디렉토리를 나열하고, 여기에 포함 된 디렉토리는 ''/ usr, / var, / etc ''그리고 내가 실제로 가고 싶지 않은 다른 디렉토리도 포함되어 있다는 것을 알아 차리는데 오랜 시간이 걸리지 않았습니다.
CTRL-C! CTRL-C! CTRL-C! 너무 늦었 어! 모든 것이 사라졌습니다. 시간을 다시 설치하십시오. 다행히도 상자에는 중요한 것이 포함되어 있지 않습니다.
전생의 작은 부분으로 회사의 파일 서버 인 넷웨어 4:11 상자를 관리했습니다. 전혀 입력이 거의 필요하지 않았지만 원격 콘솔 창을 열었습니다.
DOS를 항상 사용하는 데 익숙했습니다. 완료되면 자연스럽게 "종료"를 입력합니다. Netware의 경우 "exit"는 OS를 종료하는 명령입니다. 운 좋게도 서버를 "다운"하지 않으면 시스템을 종료 할 수 없습니다. (네트워크 / 클라이언트에서 사용할 수 없게하십시오.) 콘솔에 "종료"를 입력하면 "먼저 입력해야합니다" 아래로 "종료하기 전에"
콘솔 세션에서 1 : 1 "종료"를 입력 한 후 2 : "종료"를 "종료"하고 "종료"하여 "내가하려는 작업을 완료 할 수 있습니다"
그리고 전화벨이 울리기 시작합니다.
롤
내가 일한 마지막 장소, 동료는 서버 룸에서 그의 아이들과 함께있었습니다.
그는 서버에서 멀리 떨어져 있는지 확인하고 5 살짜리 아이에게 서버의 어떤 것도 건드리지 말고 특히 전원 스위치를 만져서는 안된다고 설명했다.
실제로, 그는 문 바로 근처에 그것들을 가지고있었습니다 ... (이것이 어디로 가는지 알 수 있습니까?)
소년은 서버 전원 버튼을 건드리지 않았습니다 ... 아니요, 설명하기가 너무 쉽습니다. 대신 그는 문 근처에있는 BIG RED 버튼을 쳤습니다 ... 전체 서버 룸의 전원을 차단하는 버튼입니다 !!!
Exchange, 파일 서버 등을 사용할 수없는 이유에 대해 전화선이 즉시 밝혀지기 시작했습니다.
-JFV
한때 APC UPS 모니터링 소프트웨어와 싸웠습니다. 소규모 회사 인 우리는 두 개의 작은 UPS를 가지고 있으며이를 모니터링하기 위해 다양한 서버가 설정되었습니다. 대부분의 서버는 Linux 였지만 일부는 Windows를 실행하고 있었으므로 APC 소프트웨어는 Windows 전용이므로 사용 된 서버였습니다.
그러나 당시 APC 소프트웨어는 UPS가 통화중인 UPS에 전원을 공급하고 있다고 가정하기 위해 하드 코딩되었습니다! 이 서버에는 해당되지 않았지만 중단하기에는 너무 늦었습니다. 또한 불행히도 수석 프로그래머는 회사 제품을 파트너에게 시연했습니다 .APC 소프트웨어를 종료하고 싶지 않은 동일한 서버에서 실행되는 웹 기반 앱이었습니다 ...
랙 뒤에 갇힌 타워 서버를 넘어서서 Cisco 라우터의 뒷면에 내 머리를 때렸습니다. 따라서 전원 코드가 Catalyst 6500 앞면의 전원 공급 장치에 실제로 느슨하게 장착되어 있는지 알 수 있습니다.
네. 우리는 지금 서버 룸에 안전모를 설치했습니다. 내 이름으로