Google 및 Bing 봇만 사이트를 크롤링하도록 허용

사이트에 다음 robots.txt 파일을 사용하고 있습니다. 대상은 Googlebot 및 bingbot이 페이지를 제외한 사이트에 액세스하고 /bedven/bedrijf/*다른 모든 봇이 사이트를 크롤링하지 못하도록 차단하는 것입니다.

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

마지막 규칙 User-agent: * Disallow: /은 모든 봇이 사이트의 모든 페이지를 크롤링하지 못하게 합니까 ?

web-crawlers robots.txt

— 곤솔
소스

이 모든 작업이 저에게 중요합니다. 다른 검색 엔진이 있으며이를 사용하는 사람은 귀하의 사이트를 볼 수 없습니다. theeword.co.uk/info/search_engine_market에 따르면 인터넷의 4.99 %가 검색 엔진에 없습니다. 그것은 많은 사람들입니다. 더 좋은 방법은 트래픽을 모니터링하고 봇이 실제로 문제를 일으키는 지 확인한 다음 구체적으로 차단하는 것입니다.

— GKFX

잘못 행동하는 봇은 robots.txt어쨌든 완전히 무시할 수 있습니다

— Nick T

정말 나쁜 봇은 robots.txt에 관심이 없습니다

— Osvaldo

@NickT는 실제 세계에서 robots.txt, 또는 최소한 Disallow: /규칙 을 따르는 제대로 작동하지 않는 봇의 부족이 없습니다 . 봇 프로그래머가 서버가 256 kbit 연결의 잘못된 끝에서 라즈베리 파이라고 생각하지 않아서 개인 웹 사이트가지면에 망치는 경우 이와 같은 담요 제외가 유용합니다.

— Mark

@ 콘솔 왜?

— o0 '.

답변:

마지막 레코드 (로 시작 User-agent: *) 다음에는 자신을 "googlebot", "google", "bingbot"또는 "bing"으로 식별하지 않는 모든 폴 라이트 봇이 이어집니다.
그리고 네, 그들은 아무것도 크롤링 할 수 없다는 것을 의미합니다.

*에서 를 생략 할 수 있습니다 /bedven/bedrijf/*.
원래 robots.txt 사양에서 *특별한 의미는 없으며 다른 문자와 같습니다. 따라서 문자 그대로 *URL에 문자가있는 페이지 만 크롤링 할 수 없습니다.
그들이 사용하기 때문에 구글이, 그런 측면에서의 robots.txt 사양을 따르지 않는 동안 *"문자의 순서"에 대한 와일드 카드로, 그것은 것 필요하지 않습니다 이 경우 그들을 위해 : /bedven/bedrijf/*와 /bedven/bedrijf/정확히 같은 의미 : 그 경로에 모든 URL을 차단 로 시작 합니다 /bedven/bedrijf/.

마지막으로 레코드에 여러 User-agent줄 이있을 수 있으므로 robots.txt를 두 개의 레코드로 줄일 수 있습니다 .

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

— 또는
소스

참고 구글이 크롤링 지연 지시문을 무시 robots.txt에의합니다. 대신 Google 웹 마스터 도구에서 설정해야합니다.

— Disgruntled 염소

-2

봇, 특히 나쁜 봇은 robots.txt 파일을 무시할 수 있습니다. 따라서 어떤 봇이 어떤 사이트에 작성 되든 사이트를 크롤링 할 수 있습니다.

— 아티스 루 구스
소스