내 고객의 사이트 중 하나가 지난 주에 직접 번개를 맞았습니다 (동시에 13 일 금요일에! ).
나는 현장에서 멀리 떨어져 있었지만 현장에서 누군가와 일하면서 이상한 패턴의 손상을 발견했다. 두 인터넷 연결이 모두 끊어졌으며 대부분의 서버에 액세스 할 수 없었습니다. 대부분의 손상은 MDF 에서 발생 했지만 하나의 광섬유 연결 IDF 도 스위치 스택 멤버에서 포트의 90 %를 잃었습니다. 여분의 스위치 포트를 사용하여 다른 곳에서 케이블을 재배포하고 다시 프로그래밍 할 수 있었지만 영향을받는 장치를 추적하는 동안 다운 타임이 발생했습니다.
이것은 새로운 건물 / 창고 시설이었으며 많은 계획이 서버 룸 설계에 투입되었습니다. 주 서버 룸 에는 발전기가 지원 하는 APC SmartUPS RT 8000VA 이중 변환 온라인 UPS가 사용됩니다. 연결된 모든 장비에 적절한 전력 분배가있었습니다. 오프 사이트 데이터 복제 및 시스템 백업이 이루어졌습니다.
결국, 내가 아는 손상은 다음과 같습니다.
- Cisco 4507R-E 섀시 스위치 에서 실패한 48 포트 라인 카드 .
4 원 스택에서 실패한 Cisco 2960 스위치.(oops ... 느슨한 스태킹 케이블)- Cisco 2960 스위치의 여러 비정상적인 포트.
- HP ProLiant DL360 G7 마더 보드 및 전원 공급 장치.
- Elfiq WAN 링크 밸런서.
- 하나의 Multitech 팩스 모뎀.
- WiMax / 고정 무선 인터넷 안테나 및 전원 인젝터.
- 수많은 PoE 연결 장치 (VoIP 전화, Cisco Aironet 액세스 포인트, IP 보안 카메라)
대부분의 문제는 Cisco 4507R-E에서 전체 스위치 블레이드를 잃는 것과 관련이있었습니다. 여기에는 일부 VMware NFS 네트워킹과 사이트 방화벽에 대한 업 링크가 포함되었습니다. VMWare 호스트는 실패했지만 스토리지 네트워킹 연결이 복원되면 HA가 VM을 관리했습니다. 펑키 한 전원 상태를 지우려면 여러 장치를 재부팅 / 전원을 껐다 켜야했습니다. 회복 시간이 짧았지만 어떤 교훈을 얻어야할지 궁금합니다.
- 향후 장비를 보호하기 위해 어떤 추가 보호 기능을 구현해야합니까?
- 보증 및 교체에 어떻게 접근해야합니까? Cisco와 HP는 계약중인 품목을 교체합니다. 비싼 Elfiq WAN 링크 밸런서는 그들의 웹 사이트 에 기본적으로 "너무 나쁘다, 네트워크 서지 보호기를 사용하라"는 말이있다 . (이러한 유형의 실패를 예상하는 것처럼 보입니다)
- 나는 과거에 뇌우 피해를 입을만큼 충분히 오래 IT에 종사해 왔지만 영향이 매우 제한적입니다. 예를 들어 저렴한 PC의 네트워크 인터페이스 또는 미니 스위치의 파괴.
- 잠재적으로 벗겨지기 쉬운 장비를 탐지하기 위해 할 수있는 다른 일이 있습니까, 아니면 이상한 행동이 나타날 때까지 기다려야합니까?
- 이것이 모두 불운이거나 재난 복구에서 실제로 고려해야 할 것이 었습니까?
충분한 $$$로 모든 종류의 중복성을 환경에 구축 할 수 있지만 예방 적 / 고려적인 설계와 효과적인 자원 사용의 합리적인 균형은 무엇입니까?