Baiduspider 크롤링 빈도를 늦출 수 있습니까?

18

Baidu 스파이더 크롤링 빈도가 많이 만들어졌습니다. 사실 : "Baiduspider는 미친 듯이 기어 다닌다."

작업하는 사이트에서이 현상이 발생했습니다. 적어도 Baiduspider가 Baibot이 Google보다 약 0.1 % 많은 트래픽을 제공한다는 사실에도 불구하고 Baiduspider가 Googlebot과 거의 동일한 빈도로 크롤링되는 것을 발견했습니다.

내 방문을 그대로 유지하고 싶습니다. 언젠가는 커질 지 모르지만 서버에 과도한로드를 허용 할 수는 없습니다.

위에 링크 된 질문에 대한 대답은 Baidu 웹 마스터 도구가 크롤링 속도를 제한 할 수있는 기회를 제공 한다고 제안 하지만, 웜의 (중국어 전용) 캔을 주저 할 수 있습니다.

BWT에서 Baiduspider 크롤링 속도를 제한 한 경험이 있습니까? 이 부하를 제한하는 다른 방법이 있습니까?

— Samthebrand
소스

11

훌륭한 질문이며 Baidu 스파이더가 악명 높고 서버의 리소스를 za 수 있기 때문에 많은 웹 마스터가 관심을 가질 수 있습니다 ...

바이두의 웹 검색 뉴스 바와 같이, 크롤링 지연 알림 설정을 지원하지 않습니다 거미 바이 진술로 대신하고, 등록하고 바이두 웹 마스터 도구 플랫폼 사이트를 확인하도록 요구 여기 의 사이트에서. Baidu에서 직접 크롤링 빈도를 제어 할 수있는 유일한 옵션 인 것 같습니다.

문제는 다른 스팸 봇 (상장 바이두의 사용자 에이전트를 사용한다는 것입니다 여기에 자신의 자주 묻는 질문의에 표시된대로, 귀하의 사이트를 거미에 2 번 아래)를 여기에 바이와 느린 크롤링 속도를 요구하는 모든 것을 해결할 수 있도록 4 번에서.

따라서 Baidu의 웹 마스터 도구를 사용하기로 결정한 경우 Bots vs Browsers Database 와 같은 리소스를 사용하거나 역방향 DNS 조회를 사용하여 사용자 에이전트와 연관된 것으로 알려진 IP를 사용자 에이전트와 비교하는 것이 좋습니다.

다른 옵션은 모든 Baidu 사용자 에이전트를 차단하여 Baidu의 잠재적 트래픽을 희생하거나 Apache의 mod_qos 와 같은 과도한 요청을 제한하는 것입니다 .

위치 / 자원 (URL) 또는 가상 호스트에 대한 최대 동시 요청 수입니다.
URL에 허용 된 초당 최대 요청 수 또는 초당 다운로드 된 최대 바이트 수와 같은 대역폭 제한
초당 요청 이벤트 수를 제한합니다 (특별 요청 조건).
또한 제한없이 또는 웹 서버에 액세스 할 수있는 매우 중요한 사람 (VIP)을 "감지"할 수 있습니다.
무단 작업을 거부하는 일반 요청 라인 및 헤더 필터 본문 데이터 제한 및 필터링 요청 (mod_parp 필요)
TCP 연결 수준에 대한 제한 (예 : 단일 IP 소스 주소 또는 동적 연결 유지 제어에서 허용되는 최대 연결 수).
서버에 사용 가능한 TCP 연결이 부족한 경우 알려진 IP 주소를 선호합니다.

Baidu 웹 마스터 도구에 대한보고 된 경험을 찾지 못했습니다.로드 속도가 느리고 번역 문제가 있습니다 (영어 버전 없음). 도움이 될 수 있지만 물론 의견 기반입니다.

— 댄
소스

1

이것은 @Dan에게 정말 도움이됩니다. 이 솔루션 중 몇 가지를 시도해 보면 (Baidu 웹 마스터 도구는 큰 고통입니다.)

— samthebrand

1

감사! 좋아요-다른 옵션도 찾으면 업데이트하겠습니다. 이 질문은 공격적인 봇에 대한 많은 웹 마스터의 좌절감과 그들과의 상호 작용에 대한 우려를 반영합니다 (예 : Baidu 웹 마스터 도구). 합법적 인 봇이이를 고려하여 더 나은 도구 / 옵션을 사용할 수있게되기를 바랍니다.

— dan

@samthebrand와 dan-다시보고하십시오! 추천 할 수있는 다른 솔루션을 찾으셨습니까?

— lazysoundsystem 2014 년

5

이것에 대한 많은 연구와 실험 끝에 마침내 총알을 깨고 Baidu 웹 마스터 도구 계정을 설정했습니다. 다른 창에서 Google Translate를 사용하는 경우 사용하기가 매우 간단합니다. 일반 브라우저 모드에서 캡처 할 수없는 버튼에서 중국어 텍스트를 복사하여 붙여 넣으려면 Firebug를 활성화해야합니다.

설정 후 크롤링 데이터가 표시 될 때까지 며칠 기다려야하며 크롤링 속도를 사용자 지정할 수 있습니다. 이 URL을 사용하여 얻을 수있는 "압력"섹션에 표시됩니다.
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Baidu 웹 마스터 도구 계정 설정이 있고 해당 웹 사이트의 계정과 웹 사이트 URL을 연결 한 경우에만이 URL을 사용할 수 있습니다. 여기 중앙에 현재 크롤링 속도가있는 슬라이더가 표시됩니다 (제 경우에는 하루 12676 번 요청). 크롤링 속도를 줄이려면 왼쪽으로 밉니다.

실제로 귀하의 요청을 존중하는지 여부는 아직 모릅니다. 이와 같은 경고 메시지가 표시됩니다. "기본 사이트 Baidu 크롤링 속도를 사용하는 것이 좋습니다. 웹 사이트에 크롤링에 문제가있는 경우에만이 도구를 사용하여 사이트를 크롤링하십시오. 사이트의 정상적인 크롤링을 유지하기 위해 Baidu는 크롤링 속도 조정을 실제와 함께 고려합니다. 사이트 조건이 귀하의 요청에 따라 조정되도록 보장 할 수 없습니다. "

— 사용자 35703
소스

1

나는 이것에 대한 업데이트를 고맙게 생각하는 유일한 사람이 아니라고 확신합니다-요청을 존중합니까? 계정을 만드는 것이 좋습니까?

— lazysoundsystem 2012 년

크롤링 빈도 조정 페이지로 직접 URL을 업데이트했습니다. 이제 더 이상 메뉴에없는 웹 마스터 도구에 더 깊이 묻혔습니다. Google 번역은 혼란스러운 번역으로 인해 찾기가 매우 어렵습니다. ;-)

— odony

-1

예. robots.txt 의 Crawl-delay매개 변수를 사용 하여 동일한 서버에 대한 연속 요청 간 대기 시간 (초)을 설정할 수 있습니다.

User-agent: Baiduspider
Crawl-delay: 100

첫 번째 줄은 Baidu 웹 크롤러에게만 명령을 이행하도록 지시하는 것입니다. 두 번째 줄은 서버에 대한 요청 사이에 초 단위의 대기 시간입니다. 필요에 따라 지연 시간을 추가 할 수 있습니다.

이 명령을 기존 robots.txt 파일 에 추가해야 합니다. robots.txt 파일 이없는 경우 위의 코드를 텍스트 파일에 추가하고 파일을 robots.txt 로 저장 한 다음 웹 사이트의 루트 폴더에 업로드하면 아래 주소에 표시됩니다.

www.examplesite.com/robots.txt

— 맥스
소스

2

Baiduspider는 크롤링 지연을 지원하지 않습니다. 여기를 참조 하십시오 .

— samthebrand

혹시 robots.txt 파일의 일부 사이트에서 보았으므로 그렇게 가정했습니다! 그 말은 어떻습니까?!

— Max