어떤 봇이 실제로 사이트에 참여할 가치가 있습니까?


11

많은 봇을 작성하고 사이트를 크롤링하는 엄청난 양의 임의 봇을 보았는데 웹 마스터로서 궁금합니다.

내 생각은 봇을 사이트에 허용하면 잠재적 인 트래픽이 발생할 수 있다는 것입니다. 실제 트래픽을 사이트로 전송하는 것으로 알려지지 않은 봇을 허용 할 이유가 있습니까? 이러한 "좋은"봇을 어떻게 발견합니까?


1
+1 : 좋은 질문입니다. 그러나 봇이 너무 많기 때문에 질문에 대답하기가 어렵습니다.
Zistoloen

@Zistoloen : 예, 어려운 질문입니다. 사실, 내가 요청한 이유는 내가 아는 주요 검색 엔진이 수십억 페이지의 색인을 생성했기 때문에 사이트가 중요하지 않은 검색 엔진을 차단하려고 시도했기 때문에 대량의 웹에 액세스 할 수없는 방법에 대해 불평했기 때문입니다.
blunders


@blunders 시간을 내 주셔서 감사합니다. 질문을 파싱 할 수 있다면 직접 편집했을 것입니다 :)
DisgruntledGoat

@DisgruntledGoat : 문제 없습니다, 편집 해 주셔서 감사합니다!
blunders

답변:


11

일반적인 봇 영역 내에서 그것은 모두 당신이 좋아하는 것에 달려 있으며 오직 당신 만이 결정할 수 있습니다. 물론 Google, Bing / MSN / Yahoo !, Baidu 및 Yandex가 있습니다. 이들은 주요 검색 엔진입니다. 다양한 SEO 및 백 링크 사이트도 있습니다. 옳고 그름에 관계없이 두 명의 큰 사용자가 내 사이트에 액세스 할 수 있지만 일반적으로 쓸모없는 사이트입니다. robots.txt뿐만 아니라 도메인 이름과 IP 주소로도 archive.org를 차단합니다. robots.txt를 크게 무시하기 때문입니다. 이것은 당신이 느끼는 데 필요한 것입니다. 에이전트 이름에 속지 마십시오. 종종 그들은 나쁜 사람들에 의해 위조됩니다. 지금은 Baidu라고 주장하는 출처로부터 수천 건의 페이지 요청을 받고 있지만 그렇지 않습니다. 도메인 이름 및 IP 주소 블록으로 이러한 스파이더를 파악하고 해당 레벨에서 스파이더를 처리하는 방법을 배우십시오. 좋은 것은 robots.txt를 준수합니다.

그러나 나는 당신에게 당신의 로그 분석을 자주 검색하고 차단하기를 원하는 스텔스 봇, 도적 봇, 스크레이퍼 등이 있습니다. 이 5uck5! 그러나 반드시 이루어져야합니다. 요즘 가장 큰 위협은 사이트에 대한 품질이 낮은 링크입니다. 올해 구현 한 업데이트 된 안티 봇 보안 코드는 7700 저품질 링크를 자동으로 삭제했습니다. 물론 내 코드는 여전히 작동해야하지만 요점을 알 수 있습니다. 나쁜 봇은 여전히 ​​사이트 잠재력을 훔칩니다.

오래 걸리지 않을 것입니다.


1

검색 엔진이 거의 트래픽을 보내지 않는 동안 Baidu 봇이 서버 속도를 늦추는 데 문제가있었습니다. 이 봇은 robots.txt 파일을 존중하지 않으므로 Baidu 봇을 차단하려면 htccess 파일에 다음을 붙여 넣으십시오.

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

또한 Baidu와 달리 Bing / Microsoft 스파이더가 너무 빨리 크롤링하는 데 문제가있어 robots.txt 파일을 존중합니다.

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.