일반 브라우저의 사용자 에이전트에 'bot'또는 'crawl'이 포함되어 있습니까?


11

일반 브라우저의 사용자 에이전트에 'bot'또는 'crawl'이 포함되어 있습니까?

내 사이트의 사용자 에이전트가 봇에서 오는지 여부를 확인합니다. 그렇다면 로그인하지 않기 때문에 약간의 최적화를 수행 할 수 있습니다. (나는 내용을 전혀 바꾸지 않습니다)

30-40 개 이상의 봇에 대한 수표를 추가 한 후 추가하는 것에 지쳤습니다. 그래서 'bot'또는 'crawl'만 포함되어 있는지 확인하고 싶습니다. 나는 모든 봇을 얻지는 못하지만 많은 봇을 얻을 것이라고 알고 있습니다. 그러나 그로 인해 오 탐지가 발생할 수 있다면 장바구니에 추가하고 주문을하고 로그인 할 수있는 기능이 완전히 엉망이됩니다.

답변:


13

에있는 목록에 따르면 http://www.useragentstring.com/pages/useragentstring.php?typ=Browser 다양한 브라우저에서 9000을 통해 사용자 에이전트 문자열 :

  • 0 개의 브라우저의 사용자 에이전트 문자열에 "bot"이라는 단어가 포함되어 있습니다.
  • 브라우저의 2 개의 사용자 에이전트 문자열에 "crawl"이라는 단어가 포함되어 있습니다.
  • 0 개의 브라우저의 사용자 에이전트 문자열에 "spider"라는 단어가 포함되어 있습니다.

"크롤링"이 포함 된 2는 다음과 같습니다. "Mozilla / 4.0 (호환 가능; MSIE 5.01; Windows NT 5.0; YComp 5.0.2.6; MSIECrawler)"및 "Mozilla / 4.0 (호환 가능; MSIE 5.01; Windows NT 5.0; MSIECrawler) ) "나는 그것들을 고려하지 않는 것이 안전하다고 생각합니다.)

http://www.useragentstring.com/pages/useragentstring.php?typ= 봇으로 나열된 442 개의 사용자 에이전트 문자열이있는 크롤러 목록에 따르면 :

  • 208 개의 사용자 에이전트 문자열에 "bot"이라는 단어가 포함되어 있습니다.
  • 봇의 63 개의 사용자 에이전트 문자열에 "크롤링"이라는 단어가 포함되어 있습니다.
  • 봇의 37 사용자 에이전트 문자열에는 "스파이더"라는 단어가 포함됩니다
  • 282 사용자 에이전트 봇 문자열에는 "bot", "crawl"또는 "spider"가 포함됩니다.

내 결론 : "bot", "crawl"및 "spider"라는 단어로 사용자 에이전트 문자열로 봇을 필터링하는 것이 안전합니다. 방탄은 아니지만 아무것도 아닌 것보다 확실히 낫습니다.

참고 : 키워드를 검색 할 때 대소 문자를 구분하지 않는 검색을 사용했습니다.


답변 해 주셔서 감사합니다. 오늘 수표를 수행했으며, 여전히 브라우저 또는 모바일 브라우저 사용자 에이전트 문자열의 포함하지 않는다 bot, crawl, spider, 심지어을 search.
Oliver

2

더 나은 솔루션 IMO는 사용자가 로그인했는지 여부를 감지하는 것입니다. 그렇지 않은 경우 표준 페이지를 표시합니다 (캐시 가능). 웹 스파이더는 절대 로그인하지 않지만 최적화하는 경우 사이트에 새로운 사용자가없는 이유는 무엇입니까?


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.