내가 일하는 소규모 대학은 매우 이상한 네트워크 문제가 있습니다. 나는 조언이나 아이디어를 찾고 있습니다. 우리는 여름 내내 괜찮 았지만, 학생들이 가을 학기를 위해 캠퍼스로 돌아온 후 며칠이 지났습니다.
조짐
주요 증상은 인터넷 액세스가 작동하지만 시간이 너무 많이 걸리는 경우가 매우 느리다는 것입니다. 예를 들어 Speedtest.net의 일반적인 결과는 .4Mbps 다운로드를 반환하지만 3 ~ 8Mbps 업로드 속도는 허용합니다. 증상이 줄어들면 파일 서버와 데이터를주고받는 성능이 크게 제한되거나 컴퓨터에 로그인 할 수없는 경우도 있습니다 (도메인 컨트롤러에 연결할 수 없음). 이 문제는 여러 vlan에 적용되며 운영중인 거의 모든 vlan의 장치에 영향을 미쳤습니다.
이 문제는 네트워크의 모든 시스템에 영향을 미치지는 않습니다. 영향을받지 않는 컴퓨터는 일반적으로 speedtest.net 에서 최소 11Mbps 다운로드를 볼 수 있으며, 당시의 더 큰 캠퍼스 트래픽 패턴에 따라 훨씬 더 많이 볼 수 있습니다.
더 큰 문제에는 한 가지 변형이 있습니다. 사용자가 거의 모든 시스템에 전혀 로그인 할 수없는 하나의 VLAN이 있습니다. IT 직원은 로컬 관리자 계정 (또는 경우에 따라 캐시 된 자격 증명)을 사용하여 로그인 할 수 있으며, 거기서 릴리스 / 갱신 또는 게이트웨이를 핑하면 시스템이 잠시 동안 작동 할 수 있습니다. 이 문제는이 vlan이 컴퓨터 실습에 적용되므로 재부팅 후 하드 드라이브를 완전히 재설정하기 위해 Deep Freeze라는 소프트웨어를 사용합니다. 몇 주 동안 저수준 정보를 영구적으로 변경하지 않은 컴퓨터의 오래된 데이터로 인해 동일한 문제가 다르게 나타날 수 있습니다. 그러나 새로운 VLAN을 만들고 랩을 새로운 VLAN 도매로 이전하여이 문제를 해결할 수있었습니다.
조사
결국 우리는 영향을받는 머신이 모두 최근에 DHCP 임대를 가지고 있음을 알았습니다. 우리는 갱신을 위해 DHCP 임대가 언제 나오는지 관찰함으로써 기계가 "느린"시기를 예측할 수 있습니다. 테스트 시간에 임대 시간을 매우 짧게 설정했지만 기계가 느려질시기를 예측할 수 없었습니다. 정적 IP가있는 머신은 거의 항상 정상적으로 작동했습니다. 주소를 수동으로 해제 / 갱신 해도 시스템 속도가 느려 지지 않습니다 . 실제로 어떤 경우에는이 프로세스가 수정되었습니다.그 상태의 기계. 그러나 대부분 도움이되지 않습니다. 또한 랩톱과 같은 모바일 컴퓨터는 새로운 VLAN으로 넘어갈 때 속도가 느려질 수 있습니다. 캠퍼스 내 무선은 "구역"으로 나뉘며, 각 구역은 작은 건물 세트에 매핑됩니다. 새 건물로 이사하면 구역에 배치되어 새 주소를 얻을 수 있습니다. 절전 모드에서 다시 시작하는 컴퓨터도 느려질 수 있습니다.
완화
영향을받는 시스템에서 arp 캐시를 지우면 항상 그런 것은 아니지만 때때로 다시 정상적으로 작동 할 수 있습니다. 이미 언급했듯이 로컬 컴퓨터의 IP 주소를 해제 / 갱신하면 해당 컴퓨터를 수정할 수 있지만 보장되지는 않습니다. 기본 게이트웨이를 핑 (Ping)하면 속도가 느린 시스템에 도움이 될 수도 있습니다.
문제를 완화하는 데 가장 도움이되는 것은 코어 레이어 3 스위치에서 arp 캐시를 지우는 것입니다. 이 스위치는 dhcp 시스템에서 모든 VLAN의 기본 게이트웨이로 사용되며 VLAN 간 라우팅을 처리합니다. 이 모델은 3Com 4900SX입니다. 문제를 완화하기 위해 스위치에서 캐시 시간 제한을 가능한 한 가장 낮은 시간으로 설정했지만 도움이되지 않았습니다. 또한 스위치에 자동으로 연결하고 캐시를 재설정하기 위해 몇 분마다 실행되는 스크립트를 구성했습니다. 불행히도, 이것이 항상 작동하는 것은 아니며 일부 기계가 짧은 시간 동안 느린 상태로 끝날 수도 있습니다 (몇 분 후에는 스스로 수정하는 것처럼 보입니다). 현재 코어 스위치가 ARP 캐시를 지우도록 10 분마다 실행되는 예약 된 작업이 있지만 이는 완벽하지는 않습니다.
생식
우리는 이제 마음대로 느린 상태로 강제 할 수있는 테스트 머신을 가지고 있습니다. 각 VLAN에 대해 포트가 설정된 스위치에 연결되어 있습니다. 다른 VLAN에 연결하여 시스템 속도를 늦추고 새로 연결 한 후에는 속도가 느려집니다.
이 섹션에서는 이전 용어가 시작되기 전에이 문제가 발생했지만 과거에는 문제가 며칠 후에 사라 졌다는 점도 주목할 가치가 있습니다. 많은 진단 작업을 수행 할 수있는 기회를 갖기 전에 자체적으로 해결되었으므로 이번에는이 용어를 오랫동안 사용할 수 없었습니다. 이것은 단기적인 상황이 될 것으로 기대했다.
다른 요인들
It's worth mentioning that we have had about half a dozen switches just outright fail over the last year. These are mainly 2003/2004-era 3Coms (mostly 4200's) that were all put in at about the same time. They should still be covered under warranty, buy HP has made getting service somewhat difficult. Mostly in power supplies that have failed, but in a couple cases we have used a power supply from a switch with a failed mainboard to bring a switch with a failed power supply back to life. We do have UPS devices on all but three of four switches now, but that was not the case when I started two and a half years ago. Severe budget constraints (we were on the Dept. of Ed's financially challenged institutions list a couple years back) have forced me to look to the likes of Netgear and TrendNet for replacements, but so far these low-end models seem to be holding their own.
올 여름 우리 네트워크의 큰 변화가 단일 캠퍼스 무선 SSID에서 앞서 언급 한 존 방식으로 마이그레이션되었다는 점도 언급 할 가치가 있습니다. 나는 이것이 내가 말한 것처럼 문제의 원인이라고 생각하지 않습니다. 우리는 이것을 전에 보았습니다. 그러나 이것이 문제를 악화시키고있을 가능성이 있으며 격리하기 어려운 이유가 될 수 있습니다.
진단
처음에는 문제의시기와 지속적인 특성을 고려할 때 문제의 원인이 ARP 캐시 중독을하는 감염된 (또는 악의적 인) 학생 컴퓨터라는 것이 분명해졌습니다. 그러나 소스를 격리하려는 반복 된 시도는 실패했습니다. 이러한 시도에는 수많은 wireshark 패킷 추적이 포함되며 심지어 짧은 기간 동안 전체 건물을 오프라인 상태로 만들기까지합니다. 우리는 흡연 총 나쁜 ARP 항목을 찾을 수 없었습니다. 현재 최선의 추측은 과부하 또는 고장난 코어 스위치이지만, 이것을 테스트하는 방법을 잘 모르겠으며 맹목적으로 교체하는 비용은 가파 릅니다.
다시 한 번, 모든 아이디어에 감사드립니다.
업데이트 :
코어 스위치가 교체되었습니다. 4 일이 지나면 모든 것이 제대로 작동하지만 문제가 해결되기 전에 2 주가 소요될 때까지 기다립니다.
mtr
여기에 도움이 될 수 있습니다.