네트워크 처리량 문제 (ARP 관련)


9

내가 일하는 소규모 대학은 매우 이상한 네트워크 문제가 있습니다. 나는 조언이나 아이디어를 찾고 있습니다. 우리는 여름 내내 괜찮 았지만, 학생들이 가을 학기를 위해 캠퍼스로 돌아온 후 며칠이 지났습니다.

조짐

주요 증상은 인터넷 액세스가 작동하지만 시간이 너무 많이 걸리는 경우가 매우 느리다는 것입니다. 예를 들어 Speedtest.net의 일반적인 결과는 .4Mbps 다운로드를 반환하지만 3 ~ 8Mbps 업로드 속도는 허용합니다. 증상이 줄어들면 파일 서버와 데이터를주고받는 성능이 크게 제한되거나 컴퓨터에 로그인 할 수없는 경우도 있습니다 (도메인 컨트롤러에 연결할 수 없음). 이 문제는 여러 vlan에 적용되며 운영중인 거의 모든 vlan의 장치에 영향을 미쳤습니다.

이 문제는 네트워크의 모든 시스템에 영향을 미치지는 않습니다. 영향을받지 않는 컴퓨터는 일반적으로 speedtest.net 에서 최소 11Mbps 다운로드를 볼 수 있으며, 당시의 더 큰 캠퍼스 트래픽 패턴에 따라 훨씬 더 많이 볼 수 있습니다.

더 큰 문제에는 한 가지 변형이 있습니다. 사용자가 거의 모든 시스템에 전혀 로그인 할 수없는 하나의 VLAN이 있습니다. IT 직원은 로컬 관리자 계정 (또는 경우에 따라 캐시 된 자격 증명)을 사용하여 로그인 할 수 있으며, 거기서 릴리스 / 갱신 또는 게이트웨이를 핑하면 시스템이 잠시 동안 작동 할 수 있습니다. 이 문제는이 vlan이 컴퓨터 실습에 적용되므로 재부팅 후 하드 드라이브를 완전히 재설정하기 위해 Deep Freeze라는 소프트웨어를 사용합니다. 몇 주 동안 저수준 정보를 영구적으로 변경하지 않은 컴퓨터의 오래된 데이터로 인해 동일한 문제가 다르게 나타날 수 있습니다. 그러나 새로운 VLAN을 만들고 랩을 새로운 VLAN 도매로 이전하여이 문제를 해결할 수있었습니다.

조사

결국 우리는 영향을받는 머신이 모두 최근에 DHCP 임대를 가지고 있음을 알았습니다. 우리는 갱신을 위해 DHCP 임대가 언제 나오는지 관찰함으로써 기계가 "느린"시기를 예측할 수 있습니다. 테스트 시간에 임대 시간을 매우 짧게 설정했지만 기계가 느려질시기를 예측할 수 없었습니다. 정적 IP가있는 머신은 거의 항상 정상적으로 작동했습니다. 주소를 수동으로 해제 / 갱신 해도 시스템 속도가 느려 지지 않습니다 . 실제로 어떤 경우에는이 프로세스가 수정되었습니다.그 상태의 기계. 그러나 대부분 도움이되지 않습니다. 또한 랩톱과 같은 모바일 컴퓨터는 새로운 VLAN으로 넘어갈 때 속도가 느려질 수 있습니다. 캠퍼스 내 무선은 "구역"으로 나뉘며, 각 구역은 작은 건물 세트에 매핑됩니다. 새 건물로 이사하면 구역에 배치되어 새 주소를 얻을 수 있습니다. 절전 모드에서 다시 시작하는 컴퓨터도 느려질 수 있습니다.

완화

영향을받는 시스템에서 arp 캐시를 지우면 항상 그런 것은 아니지만 때때로 다시 정상적으로 작동 할 수 있습니다. 이미 언급했듯이 로컬 컴퓨터의 IP 주소를 해제 / 갱신하면 해당 컴퓨터를 수정할 수 있지만 보장되지는 않습니다. 기본 게이트웨이를 핑 (Ping)하면 속도가 느린 시스템에 도움이 될 수도 있습니다.

문제를 완화하는 데 가장 도움이되는 것은 코어 레이어 3 스위치에서 arp 캐시를 지우는 것입니다. 이 스위치는 dhcp 시스템에서 모든 VLAN의 기본 게이트웨이로 사용되며 VLAN 간 라우팅을 처리합니다. 이 모델은 3Com 4900SX입니다. 문제를 완화하기 위해 스위치에서 캐시 시간 제한을 가능한 한 가장 낮은 시간으로 설정했지만 도움이되지 않았습니다. 또한 스위치에 자동으로 연결하고 캐시를 재설정하기 위해 몇 분마다 실행되는 스크립트를 구성했습니다. 불행히도, 이것이 항상 작동하는 것은 아니며 일부 기계가 짧은 시간 동안 느린 상태로 끝날 수도 있습니다 (몇 분 후에는 스스로 수정하는 것처럼 보입니다). 현재 코어 스위치가 ARP 캐시를 지우도록 10 분마다 실행되는 예약 된 작업이 있지만 이는 완벽하지는 않습니다.

생식

우리는 이제 마음대로 느린 상태로 강제 할 수있는 테스트 머신을 가지고 있습니다. 각 VLAN에 대해 포트가 설정된 스위치에 연결되어 있습니다. 다른 VLAN에 연결하여 시스템 속도를 늦추고 새로 연결 한 후에는 속도가 느려집니다.

이 섹션에서는 이전 용어가 시작되기 전에이 문제가 발생했지만 과거에는 문제가 며칠 후에 사라 졌다는 점도 주목할 가치가 있습니다. 많은 진단 작업을 수행 할 수있는 기회를 갖기 전에 자체적으로 해결되었으므로 이번에는이 용어를 오랫동안 사용할 수 없었습니다. 이것은 단기적인 상황이 될 것으로 기대했다.

다른 요인들

It's worth mentioning that we have had about half a dozen switches just outright fail over the last year. These are mainly 2003/2004-era 3Coms (mostly 4200's) that were all put in at about the same time. They should still be covered under warranty, buy HP has made getting service somewhat difficult. Mostly in power supplies that have failed, but in a couple cases we have used a power supply from a switch with a failed mainboard to bring a switch with a failed power supply back to life. We do have UPS devices on all but three of four switches now, but that was not the case when I started two and a half years ago. Severe budget constraints (we were on the Dept. of Ed's financially challenged institutions list a couple years back) have forced me to look to the likes of Netgear and TrendNet for replacements, but so far these low-end models seem to be holding their own.

올 여름 우리 네트워크의 큰 변화가 단일 캠퍼스 무선 SSID에서 앞서 언급 한 존 방식으로 마이그레이션되었다는 점도 언급 할 가치가 있습니다. 나는 이것이 내가 말한 것처럼 문제의 원인이라고 생각하지 않습니다. 우리는 이것을 전에 보았습니다. 그러나 이것이 문제를 악화시키고있을 가능성이 있으며 격리하기 어려운 이유가 될 수 있습니다.

진단

처음에는 문제의시기와 지속적인 특성을 고려할 때 문제의 원인이 ARP 캐시 중독을하는 감염된 (또는 악의적 인) 학생 컴퓨터라는 것이 분명해졌습니다. 그러나 소스를 격리하려는 반복 된 시도는 실패했습니다. 이러한 시도에는 수많은 wireshark 패킷 추적이 포함되며 심지어 짧은 기간 동안 전체 건물을 오프라인 상태로 만들기까지합니다. 우리는 흡연 총 나쁜 ARP 항목을 찾을 수 없었습니다. 현재 최선의 추측은 과부하 또는 고장난 코어 스위치이지만, 이것을 테스트하는 방법을 잘 모르겠으며 맹목적으로 교체하는 비용은 가파 릅니다.

다시 한 번, 모든 아이디어에 감사드립니다.

업데이트 :
코어 스위치가 교체되었습니다. 4 일이 지나면 모든 것이 제대로 작동하지만 문제가 해결되기 전에 2 주가 소요될 때까지 기다립니다.


영향을받는 시스템에서 패킷 손실이보고 있습니까? 그렇다면 패킷 손실은 어디에서 발생합니까? mtr여기에 도움이 될 수 있습니다.
EEAA

3
이것은 스위치 중 하나에 결함이있어 arp-tables를 손상시키고 손상된 항목을 다른 스위치로 전파하는 것처럼 보입니다. 따라서 테이블이 L3 코어에서 지워질 때 부분 릴리프가 발생합니다. 추가 문제 해결을 시도하기 전에 모든 스위치를 재설정하는 것이 좋습니다. 운이 좋으면 문제가 완전히 해결됩니다. 스위치에 실제로 결함이있는 경우 재부팅 후 전원 켜기 진단에 실패합니다. 파워 그리드의 PS 약간의 변동이이 영향을 줄 수 있습니다. 스위치가 UPS에없는 경우 근본 원인 일 수 있습니다.
토니

@ErikA 우리는 약간의 패킷 손실이 있습니다. 더 나은 추적을 얻을 수 있는지 살펴볼 것입니다. 그러나 패킷 손실은 캠퍼스의 모든 위치에서 발생합니다. 즉, 일반적인 연결 지점은 코어 스위치와 서버에 연결된 스위치뿐입니다.
Joel Coel

1
@ 토니 우리는 문제 해결의 일환으로 모든 스위치를 거의 두 번 이상 재설정했습니다. 그것은 하루에 하루 반 동안 불만을 줄이는 것 같았습니다. 우리는 약 40 개의 스위치 장치를 가지고 있으며, 3 개 또는 4 개를 제외한 UPS 장치가 있습니다. 여기서 중요한 것은 모든 스위치가 거의 동시에 설치되었으며 작년에 6 건의 명백한 장애가 있었기 때문에 그에 대한 많은 신뢰성이 있습니다.
Joel Coel

1
3com 경험이 없지만 주어진 포트에서 배운 mac 주소 수를 제한하는 방법이있을 수 있습니다. 누군가 맥이 넘쳐서 스위치를 허브로 전환하는 경우 학생 컴퓨터의 모든 액세스 포트에서이 작업을 수행 할 수 있습니다.
나쁜

답변:


2

조엘,

트렁크가 설정되어 있고 원하는대로 문제를 복제 할 수 있습니다. 랩탑에 Wireshark를 설치하고 업 링크 포트를 미러 / 스팬하십시오. 패킷 속도가 10,000 이상이거나 포트 사용률이 최대 속도 근처에 있으면 문제가있는 것입니다.

하드웨어 / 스패닝 트리 문제가있을 수 있습니다. 일반적으로 사용자는 "더 많은 처리량을 얻기 위해"컴퓨터에 두 닉을 연결하는 것을 발견했습니다.

스패닝 트리 문제의 경우 일반적으로 공급 업체의 포트 당 루프 감지 또는 브로드 캐스트 제한을 켤 수 있습니다. 이것은 루프가 발견 된 모든 포트를 죽입니다. "bpdu protection"을 켜서 bpdu가 수신 된 포트를 비활성화하고 syslog / snmp 트랩 수신기에 오류를 발생시킬 수 있습니다.


1

이전에 이와 비슷한 문제를 보았고 LAN의 루프로 인해 전체 서브넷의 혼란과 포화를 유발했습니다 (아마도 추가 포트에서 자체 MAC을 보는 스위치로 인한 브로드 캐스트 트래픽으로 인한).

편집 : 또한, 작은 사랑하는 사람들이 패치 케이블 / 소켓으로 엉망이되기 때문에 교육 기관 (이전의 sysadmin 작업 중 2 개)에서 일반적입니다 ...


우리는 이것을 정확히 확인하는 데 많은 시간을 보냈지 만 결국 배제했습니다.
Joel Coel

0

브로드 캐스트 스톰을 유발하는 나쁜 하드웨어가 있으면 나에게 들린다. Wireshark를 사용하여 방송을 시청하고 문제를 일으키는 호스트를 찾으십시오.


일부 기계는 제대로 작동하고 다른 기계는 제대로 작동하지 않을 경우에는 이럴 가능성이 거의 없습니다. 브로드 캐스트 스톰은 전체 VLAN을 곧바로 끌어 올릴 것입니다.
Paul Gear

0

Joe의 아이디어는 좋지만 문제를 일으키는 방송 폭풍이 아닐 가능성이 높다는 점을 감안할 때 (ARP 캐시 중독 또는 이와 유사한 문제로 올바른 길을 가고 있다고 생각합니다. IP 주소 충돌 일 수도 있습니다), 아마 문제를 해결하지 못할 것입니다.

스위치가 지원하는 경우 동적 ARP 및 DHCP 검사를 사용하는 관련 기술. 이 기능을 켜면 스위치는 DHCP 트랜잭션을 감시하고 DHCP 데이터베이스의 알려진 항목 또는 수동으로 지정한 항목과 일치하는 ARP 항목 만 허용합니다.

스위치에이 기능이없는 경우이를 추적하기위한 또 다른 옵션은 Linux 유틸리티 arpwatch입니다. 모든 ARP 요청을 추적하고 IP-MAC 매핑 변경이 발견되면 알려줍니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.