과도한 HTTP 대역폭 사용을 동적으로 차단 하시겠습니까?


24

우리는 6 월 4 일 웹 트래픽 에 대한 Cacti 그래프에서 이것을보고 약간 놀랐습니다 .

우리는 IIS 로그에서 Log Parser 를 실행 했으며 이는 Yahoo와 Google 봇이 우리를 인덱싱하는 완벽한 폭풍이었습니다. 아야?

Google이나 Yahoo를 차단하고 싶지는 않지만 이전에 나타났습니다. Cisco PIX 515E에 액세스 할 수 있으며 웹 서버를 직접 건드리지 않고도 대역폭 문제를 동적으로 처리 할 수 ​​있도록이를 우선적 으로 고려하고 있습니다.

그러나 이것이 최선의 해결책입니까? 과도한 대역폭 사용 을 실시간으로 식별하고 차단하는 데 도움이되는 소프트웨어 나 하드웨어가 있는지 궁금합니다 . 웹 서버 앞에 놓을 수있는 약간의 하드웨어 또는 오픈 소스 소프트웨어일까요?

우리는 주로 Windows 상점이지만 Linux 기술도 갖추고 있습니다. PIX 515E가 충분하지 않으면 하드웨어를 구매할 수 있습니다. 어떤 것을 권 하시죠?

답변:


23

PIX가 버전 7.2 이상의 OS를 실행 중이거나 업그레이드 할 수있는 경우 방화벽 레벨에서 QOS 정책을 구현할 수 있습니다. 특히 트래픽을 조정할 수 있으며 봇이 사용하는 대역폭을 제한 할 수 있어야합니다. 시스코는 여기에 좋은 지침이 있습니다 .


이 답변에 대한 유일한 문제는 포스터가 Google 또는 Yahoo를 차단 (또는 저하)하고 싶지 않고 오히려 "좋은 것"을 원한다는 것입니다.
KPWINC 2016 년

1
QOS는 차단에 관한 것이 아닙니다. Sam Cogan은 " 봇이 사용하는 대역폭 을 제한 할 수 있어야합니다"라고 썼습니다 .
Piotr Dobrogost

9

야후에 대해 잘 모르겠지만 Google 봇이 사이트를 색인하는 빈도를 구성 할 수 있습니다. Google 웹 마스터를 살펴보십시오 . Yahoo에 비슷한 것이 있는지 확실하지 않습니다. 이로 인해 트래픽이 최대 50 % 줄어 듭니다.

또는 일부 웹 서버는 연결 당 트래픽을 제한하여 시도해 볼 수 있습니다. 비용이 더 많이 들기 때문에 개인적으로 하드웨어 솔루션을 멀리 할 것입니다.


야후! 사이트 탐색기가 있습니다.
Amok

9

크롤링 부하를 줄이려면-Microsoft 및 Yahoo에서만 작동합니다. Google의 경우 웹 마스터 도구 ( http://www.google.com/webmasters/ )를 통해 크롤링 속도를 느리게 지정해야합니다 .

크롤링 속도를 너무 느리게하면 로봇이 모든 사이트에 접근 할 수 없으며 색인에서 페이지가 손실 될 수 있으므로이 기능을 구현할 때는 매우주의해야합니다.

다음은 몇 가지 예입니다 ( robots.txt파일에 있음).

# Yahoo's Slurp Robot - Please wait 7 seconds in between visits

User-agent: slurp
Crawl-delay: 7

# MSN Robot - Please wait 5 seconds in between visits

User-agent: msnbot
Crawl-delay: 5

주제를 약간 벗어 났지만 Sitemap 또는 Sitemap 색인 파일을 지정할 수도 있습니다.

검색 엔진에 최상의 URL 목록을 제공하려는 경우 하나 이상의 Sitemap 자동 검색 지시문을 제공 할 수도 있습니다. user-agent는이 지정 문에 적용되지 않으므로이 검색 엔진을 사용하여 일부 검색 엔진이 아닌 일부 검색 엔진에 사이트 맵을 지정할 수는 없습니다.

# Please read my sitemap and index everything!

Sitemap: http://yourdomain.com/sitemap.axd

4

우리는 Watchguard 방화벽을 사용합니다 (현재 X1000은 수명이 다했습니다). 그들은 많은 시간과 시간을 보거나 강렬한 대역폭을 사용하는 도메인이나 IP 차단을 중심으로 많은 사람들을 가지고 있습니다.

스택 오버플로에서 Jon Skeet을 차단하고 싶지 않기 때문에 약간의 조정이 필요합니다. :)


3

Microsoft ISA Server 2006을 권장합니다. 특히이 요구 사항의 경우 기본적으로 IP 당 600 개의 HTTP 요청 / 분으로 제한되며 Jon Skeet에 대해 예외를 적용 할 수 있습니다 (죄송합니다. "joke"가 이미 만들어진 것을 알고 있습니다! ).

응용 프로그램 수준 필터링, 해당 서버의 NLB 대신 여러 웹 서버에서로드 균형 조정 기능, VPN 종료 등의 추가 이점이 있습니다. 상용 확장 기능이 많이 있으며 자체 ISAPI 필터를 작성할 수도 있습니다. 당신은 용감한 느낌입니다.

분명히 오픈 소스는 아니지만 Windows 상점에 이점이 있으며 상용 하드웨어에서 실행됩니다.


이것은 modifyig robots.txt와 함께 가장 유연한 접근법입니다
Jim B

감사. 크롤러에게 방향을 제시해야한다는 데 동의합니다!
Robin M

2

우리는 파운드리로드 밸런서 (특히 SI850)를 사용하여 이러한 종류의 성형 문제를 처리하고 SYN-floods와 같은 다른 많은 '불쾌한 것'도 처리합니다.


2

Bluecoat (이전의 Packeteer) PacketShaper 제품은 관리하는 트래픽에서 과도한 사용량을 동적으로 제한 할 수 있습니다.


1

적절한 용량 / 빈티지의 일반 Cisco 라우터를 사용하여 기본적인 속도 제한을 수행 할 수도 있습니다. Cisco 라우터를 사용하고 있습니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.