네트워크를 어떻게 끊었습니까?


11

이 이벤트가 다시 발생하지 않도록 이벤트 후 조언을 찾고 있습니다.

VSS 이중화를 위해 구성된 2 개의 Cisco 4500x 스위치로 구성된 네트워크 코어가 있습니다. 여기에는 iSCSI 장치, vSphere 용 HP 블레이드 센터, 사용자 액세스 스위치에 대한 통합 링크 및 서버 룸에 구리 장치 용 4948e 스위치 쌍이 있습니다. 4948es에서 두 ISP 링크를위한 2960 스위치 쌍과 방화벽으로 ASA 쌍이 있습니다. 4948e에 연결하는 많은 장치가 단일 NIC 만 가지고 있다는 점을 제외하고는 상당히 중복성이 뛰어납니다.

현재 사용자 액세스 스위치 (이전 Extremes)를 Meraki로 교체 할 준비를하고 있습니다. 또한 현재 Aruba를 대체하기 위해 Meraki AP를 구현하고 있습니다. 무선 프로젝트에는 AP 관리 및 게스트 무선을위한 몇 가지 새로운 VLAN 및 서브넷을 만드는 것이 포함됩니다.

4500x에는 정의되지 않은 두 개의 VLAN (20 및 40)이 있었지만 서브넷은 비어 있고 포트를 사용하는 포트가 없는지 확인했습니다. 4500x로 이동하여 " no interface vlan 20"를 발행 한 다음 서브넷으로 다시 빌드했습니다. 나는 원했다. 그런 다음 Meraki에 연결된 두 개의 10Gb 포트에 추가했습니다.

switchport trunk allowed <previous list plus two VLANs above plus existing wireless VLAN>

20 개와 40 개의 VLAN이 종료 된 것을 확인하여 발행 no shutdown했습니다. 그 시점에서 Merakis에 대한 액세스 권한이 없어서 해당 링크의 포트 채널 인터페이스에 VLAN을 추가하지 않았다는 것을 깨달았습니다.

현재 환경의 절반에 도달 할 수 없습니다

우리의 인터넷 링크는 극도로 틀렸다. Avaya VoIP 전화가 전화를 걸거나받을 수 없습니다. 우리는 사용할 수 없게 된 구리로 연결된 iSCSI 장치 몇 개를 보유하고 있습니다. 사용자에게 문제가 발생하지 않았지만 백업 및 메일 아카이브가 영향을 받았습니다. 나는 서버 룸에 들어가서 어떻게 든 루프를 만들었을 때 4500x에서 Merakis를 분리했다 (두 10Gb 파이버 포트의 플러그를 뽑았다). 나는 그 시점에서 잠시 동안 이것을 쳐다 보는 것을 인정합니다.

Orion을 끌어 내고 외부 스위치 중 하나 (Cat2960)와 ASA 쌍 중 하나도 다운 된 것으로 나타났습니다. 우리는 일종의 부분 LAN 연결 손실이 있었지만 ASA 쌍은 서로 교차 연결되어 있으며 업 링크가 다운되지 않아 내부 장치가 도달 할 수있는 수준으로 장애 조치되지 않았습니다. "다운"ASA를 종료하고 인터넷에 다시 연결할 수있게되었습니다.

TAC에 전화를 걸었고 다운 된 각 호스트에 대해 모든 포트 구성을 계속 nitpicking 한 기술과 몇 시간 동안 씨름 한 후 4500x에서 그를 보여주었습니다 .4948e 스위치 중 하나에 로그인하여 어떻게 핑을 할 수 없는지 보여주었습니다. Windows 기반 구리 iSCSI 장치 중 하나, 블레이드 센터의 iLO 인터페이스 등 직접 연결되어 있습니다.

그는 로그를 살펴 보았지만 아무것도 찾지 못했습니다. 그러나이 시점에서 그는 "로그에서 볼 수없는 경우에도 스패닝 트리 버그처럼 보입니다"라고 말하면서 4948e와 그 모든 것을 직접 재부팅했습니다. Avaya 캐비닛을 포함하여 연결된 호스트가 바로 백업되었으므로 전화기가 다시 작동하기 시작했습니다. 4500x 파이버 연결 장치에는 여전히 문제가있었습니다. 모든 경로가 중복 되었기 때문에 데드 경로입니다. 그는 비정상적으로 전원을 껐다 켜고 싶었지만 여기에는 10Gbit iSCSI가 모두 포함되어 vSphere 환경 (기본적으로 모든 서버)의 상태가 좋지 않은 주가되었습니다. 나는 그에게 남은 문제를 처리하는 우아한 리던던시 전환을하도록 말했다.

TL; DR : 나는 우리의 핵심을 상당히 무해하게 바꾸었고, 끔찍한 문제를 일으켰습니다. VLAN을 종료하지 않고 포트 채널에 추가 한 다음 포트를 추가 한 경우이를 피할 수 있었을 것으로 예상되는 구성 실수가 있었습니까? 시스코 기술은 그렇게 말하지 않았다. 그는 1 년에 걸친 가동 시간과 구 IOS 버전으로 이와 같은 상황은 놀라운 일이 아니라고 말했다.

4500x : Cisco IOS 소프트웨어, IOS-XE 소프트웨어, Catalyst 4500 L3 스위치 소프트웨어 (cat4500e-UNIVERSALK9-M), 버전 03.04.05.SG RELEASE SOFTWARE (fc1) ROM : 15.0 (1r) SG10

4948e : Cisco IOS 소프트웨어, Catalyst 4500 L3 스위치 소프트웨어 (cat4500e-IPBASEK9-M), 버전 15.0 (2) SG10, RELEASE SOFTWARE (fc1) ROM : 12.2 (44r) SG11

답변:


5

브로드 캐스트 스톰을 생성 한 것처럼 들리며 중지하는 유일한 방법은 스위치의 전원을 끄는 것입니다. 이 과정을 여러 차례 수행 한 후 Cisco에서 권장하는 모범 사례를 채택했습니다.

  • VLAN은 단일 액세스 스위치로만 확장해야합니다. 액세스 스위치에서 원하는 수의 VLAN을 가질 수 있지만 모든 액세스 스위치의 VLAN은 다른 액세스 스위치로 트렁킹해서는 안되고 배포 스위치에만 트렁킹해서는 안됩니다. 이 switchport trunk allowed vlan 명령 으로 트렁크의 다른 모든 VLAN을 수동으로 비활성화하여이를 적용하십시오 .
  • 배포 스위치에는 액세스 인터페이스가 없어야하며 배포 트렁크 인터페이스 만 있어야합니다.
  • VTP를 사용하지 마십시오 (모든 스위치를 transparent모드 로 설정).
  • 액세스 인터페이스가 있어야 portfast하고 bpduguard 있었습니다. 모든 액세스 인터페이스에 대해 전역으로 활성화 할 수 있으며 트렁크 인터페이스는 영향을받지 않습니다. 실수로 스위치를 액세스 인터페이스에 연결하면 인터페이스가 시작 err-diable되어 STP 루프가 방지됩니다.
  • 액세스 스위치를 다른 액세스 스위치에 연결하지 마십시오. 액세스 스위치를 분배 스위치에 연결하고 트렁크 인터페이스에서만 연결하십시오.

이러한 모범 사례는 거의 모든 STP 문제를 방지하고 단일 액세스 스위치에서 발생하는 모든 문제를 격리시킵니다.


2
아 예. 언젠가는 돈이 충분하고 "이상한"(예 : L2) 응용 프로그램이없고, 유쾌한 사용자 커뮤니티가 있으며, 권장되는 모든 상식 관행을 따르기에 충분한 관리 지원을 제공하는 네트워크에서 일하고 싶습니다. 타일.
Ron Trunk

1. VLAN 및 액세스 스위치에 대한 첫 번째 제안은 확실하지 않습니다.
mfinni

2. "배포"는 아마도 트렁크이지만 대부분의 iSCSI 파이버 연결이있는 4500x 일 것입니다.
mfinni

3. VTP 피하기-고려할 것입니다. 오늘 "투명한"것으로 설정되어 있다고 생각하지 마십시오
mfinni

4. portfast 및 bdpuguard –이 제안도 검토합니다
mfinni

3

위의 Ron Maupin의 훌륭한 조언 외에도 Cisco 포럼에서 내가 그 과정에서 저지른 큰 실수에 대한 게시물을 발견했습니다. VLAN을 구성원이었던 포트 채널 인터페이스가 아닌 물리적 포트 인터페이스에 먼저 추가했습니다. 후자는 올바른 방법이며 문제가 발생했을 수 있습니다.


2
멤버 인터페이스가 다운 된 경우 수행 한 방식으로 수행 할 수 있습니다. 일반적으로 멤버 인터페이스를 중단하고 포트 채널을 포함한 모든 구성을 수행 한 다음 원하는 방식으로 설정하면 작업을 수행합니다.
Ron Maupin
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.