서버 실에서 무언가 타는 것; 그것이 무엇인지 어떻게 빨리 식별 할 수 있습니까?


454

다른 날에는 서버 룸에서 끔찍한 타는 냄새가납니다. 간단히 말해, UPS 장치에서 타 버린 배터리 모듈 중 하나가되었는데, 알아낼 수 있기까지 몇 시간이 걸렸습니다. 우리가 알아낼 수 있었던 주된 이유는 UPS 디스플레이가 마침내 모듈을 교체해야한다는 것을 보여 주었기 때문입니다.

여기에 문제가있었습니다 : 방 전체가 냄새로 가득 찼습니다. 냄새 냄새가 모든 것을 침투했기 때문에 냄새 검사를하는 것은 매우 어려웠습니다. 우리는 냄새가 가장 강한 곳이기 때문에 프로덕션 데이터베이스 서버를 실수로 중단했습니다. 핵심은 괜찮은 것처럼 보였고 (CPU 온도는 60도, 팬 속도는 괜찮 았습니다) 확실하지 않았습니다. 불이 붙은 배터리 모듈이 랙의 서버와 같은 높이에 불과하고 3 피트 거리 밖에되지 않았습니다. 이것이 실제 긴급 상황 이었다면 우리는 비참하게 실패했을 것입니다.

실제로 실제 서버 하드웨어가 타 버릴 가능성은 매우 드문 일이며 대부분의 경우 범인을 UPS에서 살펴볼 것입니다. 그러나 장비가 여러 개인 랙이 있으면 빠르게 추측 게임이 될 수 있습니다. 어떤 장비가 실제로 연소되고 있는지 빠르고 정확하게 어떻게 판단합니까? 나는이 질문이 방 크기, 환기, 위치 등과 같은 환경 변수에 크게 의존한다는 것을 알고 있지만 모든 의견을 부탁드립니다.


34
@ DeerHunter 글쎄요. 오늘 하루가 끝났고 건물에 사람이 거의 없었습니다. 건설적인 비판에 감사 드리며, 시스템을 유지하기로 결정할 때 어떤 생명이 위험에 처했는지 관리자에게 알려줄 것입니다.
채드 해리슨

12
@hydroparadise - 누군가가 "말을 내장해야한다 STOP 우리는 바로이 일을되지 않습니다." 관리자가 안전 규칙을 이해하지 못하면 척추를 약간 자르고 모서리를 자르려는 충동에 굴복하지 않는 한 실제로 할 수있는 일은 많지 않습니다.
사슴 사냥꾼

112
@DeerHunter : 타는 냄새가 날 때 적절한 반응은 무엇입니까? 눈에 띄는 연기가없고 타는 냄새 만 있습니다. 전체 데이터 센터를 끄고 몇 시간 동안 환기시킨 다음 냄새가 다시 나올 때까지 서버를 하나씩 켭니까? 작은 25 개의 랙 데이터 센터에는 1,000 대의 서버를 점검 할 수 있습니다. 이는 "냄새"에 대한 많은 가동 중지 시간입니다. OP는 눈에 띄는 연기 나 화재를보고하지 않았습니다.
Johnny

24
@Johnny-OP를 인용 : "방 전체가 냄새로 가득 찼습니다. 냄새가 모든 것을 침투했기 때문에 냄새 검사를하는 것은 매우 어려웠습니다. 방을 환기시키고 체계적으로 문제를 해결하십시오 . 다른 것은 무책임하다.
Deer Hunter

14
따라서 OP의 냄새 처리에 중요한 사람들은 냄새와 화재 / 연기 사이에 급격한 차이가 없음을 시사합니까? 집에서 타는 냄새가 나지만 연기가없고 경보 음이 들리지 않으면 집에서 나와 나와 가족을 서두르고 911에 전화합니까?
trpt4him

답변:


383

일반적인 합의는 귀하의 질문에 대한 답변이 두 부분으로 나옵니다.

재밌는 타는 냄새의 근원을 어떻게 찾습니까?

당신은 "어떻게"가 꽤 잘 정리되어 있습니다 :

  • "스 니프 테스트"
  • 눈에 보이는 연기 / 안개를 찾으십시오
  • 열점 (IR) 카메라로 방을 걸어 핫스팟을 찾으십시오.
  • 경고 모니터링 및 장치 패널 확인

여러 가지 방법으로 문제를 빨리 발견 할 가능성을 높일 수 있습니다. 개선 된 모니터링이 가장 쉬운 경우가 많습니다. 몇 가지 질문이 있습니다 :

  • 장비에서 온도 및 기타 건강 경보를 받습니까?
  • UPS 시스템이 모니터링 시스템에 결함을보고합니까?
  • 배전 장비에서 전류 차단 경보를 받습니까?
  • 실내 연기 감지기가 모니터링 시스템에보고됩니까? (그리고 그들은 할 수 있습니까? )

Big Red Switch에 대한 문제 해결은 언제해야합니까?

이것은 더 흥미로운 질문입니다.
큰 빨간색 스위치를 누르면 회사에 막대한 비용이 소요될 수 있습니다. 클린 에이전트 릴리스는 수만 달러에이를 수 있으며 비상 전원이 꺼진 후 정전 / 복구 비용이 발생합니다 (EPO, "방을 떨어 뜨리기") )는 치명적일 수 있습니다.
전원 공급 장치의 커패시터가 터져서 실내 냄새가 나기 때문에 데이터 센터를 삭제하지 않으려 고합니다.

반대로, 서버 룸에서 화재가 발생하면 회사의 데이터 / 장비와 직원의 삶에 더 많은 비용이들 수 있습니다.
"재미있는 타는 냄새"문제 해결은 안전보다 우선해서 는 안되므로 "사전 화재"상태 문제 해결에 대한 명확한 규칙을 세워야 합니다.

다음 지침은 명확하게 정의 된 다른 절차 / 규칙이 없을 때 (또는 그에 더하여) 적용하는 개인적 제한 사항 입니다. 이러한 절차 / 규칙은 저를 잘 섬 겼고 도움을 줄 수 있지만 쉽게 나를 죽일 수 있습니다. 내일 해고되었으므로 위험을 감수하십시오.

  1. 연기 나 화재가 보이면 방을 떨어 뜨리십시오.
    아무 말도하지 말고 어쨌든 말해 봅시다 : 활성 화재가 발생하면 (또는 연기가 곧있을 것이라는 연기가 나면) 방을 대피하고 전원을 차단하고 불을 끄십시오. 억제 시스템.
    예외가있을 수 있지만 (상식을 익힐 수는 있지만) 거의 항상 올바른 조치입니다.

  2. 문제 해결을 진행하는 경우 항상 다른 사람
    한 명 이상 참여하도록하십시오 . 두 가지 이유가 있습니다. 첫째, 데이터 센터에서 방황하고 싶지 않으며 갑자기 걸어가는 줄에 랙이 올라가고 아무도 거기에 있다는 것을 아무도 모릅니다. 둘째, 다른 사람은 문제 해결과 방을 떨어 뜨리는 것에 대한 위생 검사이며, Big Red Switch에 전화를 걸면 다른 사람이 결정에 동의 할 수있는 이점이 있습니다 (직업 제한 측면을 피하는 데 도움이 됨) 누군가가 나중에 질문하면 그러한 결정의).

  3. 문제 해결시 신중한 안전 조치를 수행
    하십시오. 항상 탈출 경로 (열의 끝이 열려 있고 출구로가는 명확한 경로)가 있는지 확인하십시오.
    누군가를 EPO / 화재 진압 방출에 배치하십시오.
    소화기를 가지고 다니십시오 (Halon 또는 기타 청정제를 사용하십시오).
    위의 규칙 # 1을 기억하십시오.
    의심 할 때 방을 떠나 . 호흡에주의하십시오 : 호흡기 또는 산소 마스크를 사용하십시오. 화학 물질 화재시 건강을 보호 할 수 있습니다.

  4. 한계를 설정하고
    보다 정확하게 준수하려면 두 가지 한계를 설정하십시오 .

    • 조건 ( "얼마나 더 나빠질까요?")
    • 시간 ( "문제가 너무 위험하기 전에 얼마나 오랫동안 문제를 찾으려고 노력할 것입니까?").

    사용자가 설정 한 한계는 또한 당신의 팀이 영향을받는 지역의 질서 종료를 시작할 수 있도록하는 데 사용, 그래서 당신이 경우에 할 수있다 DO 는 활성 기계의 무리를 충돌하지 않는 전력을 끌어하고 복구 시간이 훨씬 짧아 질 것이다, 그러나 기억 순서대로 종료하는 데 시간이 너무 오래 걸리면 안전 이름으로 몇 개의 시스템이 충돌해야 할 수 있습니다.

  5. 장을 믿으십시오
    언제라도 안전이 걱정된다면 문제 해결을 부르고 방을 비우십시오.
    직감에 따라 방을 떨어 뜨릴 수도 있고 안 내릴 수도 있지만 (상대적) 안전으로 방 밖에서 다시 그룹화하는 것이 중요합니다.

임박한 위험이없는 경우 EPO 또는 클린 에이전트 방출과 같은 과감한 조치를 취하기 전에 지역 소방서에 반입 할 수 있습니다. (어쨌든 그렇게하라고 말할 수도 있습니다. 그들의 임무는 사람들을 보호하고 재산을 보호하는 것이지만, 그들은 화재를 다루는 전문가들이므로 분명히 말을해야합니다!)

우리는 이것을 논평으로 다루었지만 @DeerHunter, @Chris, @Sirex 등 많은 답변에 요약되어있을 수도 있습니다.


30
대학 나는 새로운 데이터 센터를 설치하러 갔다. 그들은 매우 정교한 EPO / Fire Suppression 시스템을 구현했습니다. 보호 대상 장비는 수백만 달러에 달했으며 학교의 의료 부문에 대한 수백만 달러의 연구에도 사용되었습니다. 분명히 필요한 경우 빨간색 버튼이 눌 렸을 것입니다.하지만 빨간색 버튼 닿으면 다시 설정하는 것이 20 만 달러에 가깝습니다. 납세자 달러 당신은 스위치를 때리는 사람이 필요하지 않은 때 스위치를 쳤다면 더 이상 직업을 갖지 않을 것이라고 지옥에 확신 할 수 있습니다.
Ryan

28
버디 시스템의 경우 +1 나는 EPO를 사용하여 화재 진압을 덤프하는 DC가 있다는 것은 약간의 견해라고 생각합니다. 감전사를당하는 사람에게 할로 트론을 버리지 않고 EPO를 원하는 상황이 많이 있습니다. EPO는 심각한 거래이지만 "DC의 모든 거래를 파기"하거나 최소한해서는 안됩니다. DC의 사람들은 큰 빨간 버튼과 화재 진압 시스템을 버튼을 누르는 효과를 충분히 이해할 수 있기를 바랍니다. 예를 들어 EPO는 실제로 화재를 멈추고 DC를 절약 할 수 있습니다 .
chris

13
내가 언급하지 않은 중요한 참고 사항은 타는 냄새를 내기 위해 무언가가 실패하는 대부분의 시간은 타는 것이 냄새가 감지되기 ​​전에 고장난 장비 외부에서 아무것도 태우지 않고 스스로 소멸 된다는 것 입니다. 때때로 전원이 공급되는 한 장비가 계속 번져 나갈 수 있지만, 연기가 보이면 장비를 식별하고 전원을 차단하고 연기가 곧 사라지거나 지속적으로 악화되는지 여부를 확인해야합니다.
supercat

1
@ryan : 큰 빨간 버튼을 눌렀을 때 많은 세금을 내야한다면, 책임있는 직원은 직원을 위험에 빠뜨리지 않는 지역 소방서와의 사소한 사건을 해결하기위한 계획을 세웠습니다.
Christoph

3
그게 내가 최근에 본 CERN에 대한 TV를보고 생각 나는 @ryan : 카메라 팀과 기자가 시스템과의 용기에 정말 찍은 한 순간 카메라들 중 하나는 거의 자신의 배낭 버튼을 적색 비상을 받힌 - 재부팅 비용에 대해 생각하는 직원에게 거의 심장 마비를
일으킨다

183

열 화상 카메라가 작업을 수행하여 과열 위치를 식별 할 수 있습니다. 이와 같은 장치를 사용하면 연기가 가득 찬 방에서 화재의 원인이나 타는 것을 확인할 수 있습니다.


30
열 화상 카메라는 오늘날 웅장한 환경에 적합하며, 큰 서버 룸을 운영하고 있다면 그만한 가치가있는 도구입니다.
rackandboneman

16
TIC는 그다지 비싸지 않으며 데이터 센터 또는 대규모 서버 룸에서 매우 유용합니다. 과열 된 케이블이나 장비와 같은 문제뿐만 아니라 문제의 예방 또는 조기 감지, 냉장 최적화, 공기 흐름 등
ddalcero

39
레이저 온도 총처럼 이 하나 , 싼 대안
MichaelHouse

4
@mfinni Electricians에는 종종 열 화상 카메라가 있습니다. (매년 또는 주요 배선 작업 후 전력 분배 패널의 열 화상 검사는 호스팅 회사에서 근무할 때 표준이었습니다.)
voretaq7

3
열 화상 카메라에는 다음과 같은 매우 큰 제한이 있습니다. 1. 시야는 사용을 방해 할 수 있습니다. 2. 환경이 매우 조밀 할 수 있습니다. 온도 3. 평균화는 임계 값을 결정하기 위해 필요합니다 [큰 화재가 작은 사람을 발견하지만 것]
monksy

138

당신은 이런 말 을하지 않았습니다. 방 전체를 통해 펌핑되는 모든 것이 건강에 위험하고 폐를 엉망으로 만들 수 있기 때문에 위험한 환경을 떠납니다. 찾을 수없는 방에서 타는 냄새가 심하면 (911 | 112 | 999 | 어떤 비상 전화 번호가 관할지에 맞는지) 전화하여 불 (회사 | 부대)이 정리하도록하십시오 병에 든 공기에 있습니다.

컴퓨터 부품에는 수은 , 카드뮴 , 및 케이스에 들어있는 많은 플라스틱을 포함하여 모든 종류의 흥미로운 화학 물질이 포함 되어 있습니다. 내가 만든 모든 링크는 저수준 노출이 어떻게 지속적인 손상이나 빠른 사망을 유발할 수 있는지 설명합니다. 이것은 생명과 건강에 즉시 위험 할 수있는 환경입니다 .

... 정말, 무언가가 타는 경우, 연기를 스니핑하는 데 몇 시간을 소비하지 마십시오. 당신이 그것을 식별 할 수없는 즉시 그것을 포함 행동, 나가십시오.


18
에어컨과 소화 시스템이 통합 된 연기 감지기가있는 "실제"데이터 센터에서 이러한 상황이 발생하면 화재 경보가 울리고 실내가 자동으로 아르곤 또는 CO2로 침수되고 침수 될 것입니다. 주변을 돌아 다니며 장비를 스니핑하는 것에 대한 생각조차 할 수 없었습니다.
the-wabbit

8
@ syneticon-dj 설치된 검출기 유형 에 따라 다릅니다 . 이온화 감지기가 화재 진압 장치를 넘어 뜨렸을 수도 있지만, 광학 연기 감지기가있는 장소 (현재 호스트 장비에서)에서 근무했습니다.
voretaq7

3
나는 이것을 더 많이 투표 할 수 있으면 좋겠다. 논쟁의 여지가있는 위험에 대비하여, '전문가를 얻는다'소방관이 유일한 길입니다.
user619714

19
예, 전 소방관으로서 저는 장비 없이는 그곳에 머물지 않았습니다. 화재가 발생하더라도 유독 가스 때문에 짐을 꾸리도록 훈련받습니다. 내가 전문가에게 전화한다면 당신도 그래야합니다!
Jeff Ferland

1
@Michael 내가 본 디자인은 천장 연기 감지기에 의존하지 않았지만 리턴 공기 흐름에 광전 감지기가있었습니다. 내가 방아쇠를 본 유일한 것은 아르곤 나이트 시스템이 분리되고 연기 소스가 옷장 중 ​​하나에 놓인 테스트 루틴 중이었습니다. 그것은 내가 예상대로 작동했습니다. 고맙게도, 나는 실제 화재를 다룰 필요가 없었습니다.
the-wabbit

76

UPS에서 (일반적으로 SNMP를 통해) 올바르게 모니터링 한 경우 장치 자체에 모니터링 시스템의 벨이 울려 야합니다. 그렇지 않은 경우 공급 업체에 문의하십시오. 고장 났거나 모니터링 시스템이 올바르게 구성되지 않았습니다.

활성화 된 무언가가 실제로 타는 경우, 어떤 식 으로든 그것에 대해 불평하거나 단순히 네트워크 외부에서 경보를 발생시켜야합니다.

단열재를 통해 연소하는 실제 파워 레일과 같고 똑똑한 PDU가 아닌 경우, 우리는 원래의 질문으로 되돌아갑니다. 그리고 정답은 "EPO를 쳐서 알아 내십시오. 프로덕션 서버는 생명을 위험에 빠뜨리기에 충분히 중요하지 않을 것"이라고 생각합니다.


13
EPO는 무엇을 의미합니까?
Midhat

39
비상 전원 끄기 ... 실의 모든 전원을 차단하는 큰 빨간색 버튼입니다. 불이 붙을 때 주로.
그랜트

11
강조된 +1은 +1,000으로 투표했을 것입니다. 버튼을 누르고 대피하고 기다렸다가 나중에 정리하십시오. 화재 및 연기가 나는 상태에서 일상적인 업무를 수행하고 문제를 해결하는 것은 엔지니어가 할 수있는 최악의 실수 중 하나입니다.
사슴 사냥꾼

36
@ chris "EPO, Leave, Wait"에 대해 정중하게 동의하지 않아야합니다.-생산 장비가 가득 찬 방에 대해 EPO 및 / 또는 클린 에이전트 릴리스를 활성화하는 것은 종종 Career Limiting Move 라고 부르는 것 입니다. 초기 조사를 수행하는 일부 장비에서 나오는 눈에 띄는 화재 또는 연기 흔적 이없는 경우 일반적으로 올바른 것입니다. 물론 조사 할 때마다 적절한 빨간색 버튼을 치는 동안 방에서 도망 칠 준비가되어 있어야합니다.
voretaq7

13
UPS 패널이 "모듈 교체"라고 말한 순간까지는 완벽한 모니터링 시스템조차도이를 포착하지 못했을 것입니다. 이는 모니터링 시스템이 그러한 것들에주의를 기울이기를 원한다는 말입니다. 다음 번에는 금요일에 19:30에 모듈이 작동하지 않을 수 있으며 모니터링 경고를 통해 본격적인 비상 상황이 발생하기 전에 문제를 다시 처리하고 처리 할 수 ​​있습니다. FACP에 모니터링을 연결할 수있는 경우 연기 및 / 또는 열 센서가 파워 레일 등의 절연 연소에 대해 경고 할 수도 있습니다.
voretaq7

43

이것은 상황 중 하나입니다

XKCD 다이 하드 시스템 관리자

해당되지 않습니다, 당신은 전문가에게 전화해야합니다

보호 장비 소방관

다른 것은 그냥 바보입니다.


이것이 가장 좋은 대답입니다. :)
Citizen

@Navin 아니 당신은 소방서에서 사람은 그렇게하지 않습니다.
user619714

40

전자 기술 분야에서 경력을 쌓은 사람으로서 저는 화재가 아닌 "타는 냄새"에 대한 경험이 있습니다. 이것은 드문 일이 아닙니다.

나는 냄새에 대한 데이터 센터를 종료하지 않을 것입니다. 연기는 또 다른 문제이며, 실제로 불타고 있습니다 (일반적으로 완두콩 크기의 탄탈륨 커패시터는 연기로 방을 채울 수 있습니다). 전원 공급 장치에서 튀긴 부품이 얼마나 많은 냄새를 맡을 수 있는지는 놀랍습니다.

TIC 또는 IR 온도계 (유용한 도구이며 TIC보다 훨씬 저렴)는 구성 요소가 전혀 열을 발생하지 않으며 케이스 내부에 있기 때문에 반드시이를 나타내지는 않습니다. 그러나 장치가 작동하지 않는지 확인하고 모니터링 도구를 사용하십시오. 그와 같은 냄새가 나는 시간의 95 %는 전체 장치의 성능에 영향을 미치는 전원 공급 장치가됩니다.


3
+1, 전원 공급이 끊어졌습니다. 공기 흐름 속도가 높은 대부분의 데이터 센터에서는 연기가 빨리 날려 냄새의 원인을 찾기가 어렵습니다. 그러나 작은 방에서는 냄새가 매우 나빠서 방 전체에 빠르게 퍼질 수 있습니다.
Stefan Lasiewski

19

나는 IR 이미징이나 온도계 답변을 좋아하지만 실제로 도움이 될 수있는 것은 "악취 감지기"입니다. 결국 당신의주의를 유발 한 것은 냄새였습니다. 연기, 열, IR 등은 모두 대리자입니다.

이와 같은 것 : 신 아이에서 . 나는 개인적으로 사용하지 않았거나 데이터 센터에서 사용 된 것을 보았습니다. 그러나 최소한 이론적으로는 깔끔한 도구 여야합니다. 이 기즈모에 쓸 돈이 있다면.

http://www.sca-shinyei.com/odormeter 또는 http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

그것은 당신에게 분류뿐만 아니라 냄새 강도를 제공합니다. 따라서 냄새에 귀환 할 수 있어야합니다. 악마는 물론 세부 사항에 있습니다. 가짜 배경 냄새 등을 가리는 것이 얼마나 민감한 지.

순수한 온도 기반 측정에 비해 한 가지 장점은 악취가 훨씬 빠른 시점이나 임계 값에서 발생한다는 것입니다. 또는 과열 된 부품이 차체 / 숨겨진 배선 등에 의해 숨겨져 있으면 가시 광선 핫스팟보다 이탈하는 분자를 감지하는 것이 더 쉽습니다.

또 다른 상황은 비열 관련 냄새입니다. 우리는 전에 냉각 회로 누출이 있었고 냉각수 냄새도 독특했습니다. 나는 심지어 덕트에서 죽은 쥐 설치류의 경우에 들어 가지 않을 것입니다. :)

이 센서가 얼마나 민감한 지 놀랐습니다. H2S / 머 캅탄 등 (일반 범인)은 ppm 이하 수준에서 감지 할 수 있습니다.

여기에 이미지 설명을 입력하십시오

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.