«web-crawlers» 태그된 질문

다양한 목적으로 웹 페이지에 액세스하는 컴퓨터 프로그램 (콘텐츠 스크랩, 검색 엔진에 사이트 정보 등 제공)

1
baidu가 왜 내 사이트를 미친 것처럼 크롤링합니까?
아파치 로그를 확인할 때 baidu가 지난 2 주 동안 하루에 10 번 웹 사이트를 크롤링하고 있음을 알 수 있습니다. 나는 그것에 대해 많은 관심을 가지고 있지는 않지만 그가 왜 이것을하고 있는지에 대해 정말로 궁금합니다. 들어오는 링크가 많지 않은 작은 단일 페이지 웹 사이트입니다. 그 뒤에 어떤 이유가 있습니까? 220.181.108.169 [10/Mar/2012:10:41:29 …

4
Crawlable Ajax의 상태?
Google은 #을 통해 Ajax 애플리케이션을 크롤링 할 수있는 좋은 제안 / 표준을 가지고 있음을 보았습니다! (해시 뱅). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html 내 질문은 : 그들은 이미 현실 세계에서이 "제안"을 사용하고 있습니까? 다른 검색 엔진이 있습니까? 구체적으로 Bing을 사용하거나 사용하려고 계획하고 있습니까?

4
Google은 CDN 파일을 크롤링하지 않습니다
Google 웹 마스터 도구가 내 웹 사이트에서 차단 된 많은 리소스를보고하는 것으로 나타났습니다. 현재 모든 "차단 된 리소스"는 Cloudfront CDN에서 제공하는 .css, .js 및 이미지 (.jpg, .png)입니다. Google에서이 파일을 크롤링하지 않는 이유를 파악하고 "리소스 차단"상태를보고하는 데 많은 시간을 보냈습니다. 현재 나는 cdn1.example.com, cdn2.example.com과 같은 여러 호스트 이름에서이 파일들을 제공합니다.… cdn1, …

2
어떤 봇이 실제로 사이트에 참여할 가치가 있습니까?
많은 봇을 작성하고 사이트를 크롤링하는 엄청난 양의 임의 봇을 보았는데 웹 마스터로서 궁금합니다. 내 생각은 봇을 사이트에 허용하면 잠재적 인 트래픽이 발생할 수 있다는 것입니다. 실제 트래픽을 사이트로 전송하는 것으로 알려지지 않은 봇을 허용 할 이유가 있습니까? 이러한 "좋은"봇을 어떻게 발견합니까?

2
Google 웹 마스터 도구에서 로봇이 사이트 맵에 대한 액세스를 차단하고 있다고 알려줍니다.
이것은 내 robots.txt입니다 . User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz 그러나 Google 웹 마스터 도구는 로봇이 사이트 맵에 대한 액세스를 차단하고 있다고 말합니다. 사이트 맵에 액세스하는 중 오류가 발생했습니다. Sitemap이 Google 가이드 라인을 따르고 제공 한 위치에서 액세스 한 다음 robots.txt로 URL 을 다시 제출할 수 있는지 확인하십시오 …

4
애드 센스 클릭 봇은 클릭으로 내 사이트를 폭격합니다.
현재 하루에 약 7,000-10,000 페이지 조회수가있는 사이트가 있습니다. 12 월 1 일 오전 1 시경부터 CTR이 급격히 상승하고 있음을 알았습니다. 이러한 클릭은 곧 크레딧이 부여되고 신용이 취소됩니다. 따라서 분명히 사기성 클릭이었습니다. 그 다음날 약 200 회의 클릭이 발생했으며 그 중 100 건은 사기였습니다. 시간당 3 ~ 8 회의 클릭 수가 …

6
조회수에서 봇을 제외하는 가장 좋은 방법은 무엇입니까?
내 웹 사이트가 특정 페이지의 방문자 조회수를 계산합니다. Google과 다른 봇이 미친 것처럼 내 사이트를 '클릭'하는 것으로 나타 났으며 일부 페이지는 비현실적인 조회수를 얻었습니다 (인간이 생성 한 것과 비교). 뷰 카운트에서 해당 봇을 제외하는 모범 사례를 요청하고 있습니다. 분명히 "사용자 에이전트"에는 "봇"이 포함되어 있지 않습니다. 글 머리 기호 증명 솔루션이 …

1
robots.txt에서 사용자 에이전트 결합
사용자 에이전트를 함께 나열한 다음 robots.txt 에 공통 규칙을 붙일 수 있습니까? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

1
Googlebot이지도 로케이터에 수천 건의 요청을 제출하고 API 할당량 사용
고객 사이트에 매장 검색기 페이지가 있습니다. 최종 사용자는 자신의 우편 번호와 검색 반경을 입력하고 Google지도에 결과를 표시합니다. 최근에 전체 트래픽이 눈에 띄게 증가하지 않으면 서 사이트에서 무료지도 검색 한도 (24 시간당 약 25,000)에 도달 한 것으로 나타났습니다. 문제가 무엇인지 찾기 위해 추가 로깅을 설정했습니다. Googlebot이이지도에서 수천 건의 검색을 진행하고있는 것으로 …

1
robots.txt의“Noindex :”는 어떻게 작동합니까?
오늘 SEO 뉴스 에서이 기사 를 살펴 보았습니다 . robots.txtNoindex: 의 표준 Disallow:지시문 외에도 지시문 을 사용할 수 있음을 의미합니다 . Disallow: /page-one.html Noindex: /page-two.html 검색 엔진이 페이지 1을 크롤링하지 못하게하고 페이지 2를 색인 생성하지 못하게하는 것처럼 보입니다. 이 robots.txt 지정 문은 Google 및 기타 검색 엔진에서 지원됩니까? 작동합니까? 문서화되어 …

2
Google 및 Bing 봇만 사이트를 크롤링하도록 허용
사이트에 다음 robots.txt 파일을 사용하고 있습니다. 대상은 Googlebot 및 bingbot이 페이지를 제외한 사이트에 액세스하고 /bedven/bedrijf/*다른 모든 봇이 사이트를 크롤링하지 못하도록 차단하는 것입니다. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: * Disallow: / …

2
사용자 에이전트에서 URL 앞에 더하기 부호
작은 웹 크롤러를 실행하고 사용할 사용자 에이전트를 결정해야했습니다. 크롤러 에이전트 및 Wikipedia 목록은 다음 형식을 제안합니다. examplebot/1.2 (+http://www.example.com/bot.html) 그러나 일부 봇은 URL 앞에 더하기 부호를 생략합니다. 그리고 나는 그것이 처음에 무엇을 의미하는지 궁금하지만 설명을 찾을 수 없었습니다. RFC 2616은 괄호 안의 모든 것을 주석으로 간주 하며 형식을 제한하지 않습니다. 그러나 …

1
Google은 403 페이지를 어떻게 크롤링 했습니까?
학교 폴더의 디렉토리에 몇 개의 개인 파일이 있습니다. myschool.edu/myusername/myfolder로 이동하면 파일이 존재하지만 myschool.edu/myusername/myfolder/myfile.html을 통해 파일 자체에 액세스하려고하면 403 오류가 반환됩니다. 그러나 Google은 어떻게 든 개인 파일의 내용을 가져 와서 캐시에 저장했습니다! 이것이 어떻게 가능한지? [그 이후로 해당 파일을 제거 했으므로 Google에서이 작업을 어떻게 수행했는지 궁금합니다.]

6
archive.org 봇을 올바르게 허용하는 방법은 무엇입니까? 언제 상황이 바뀌 었습니까?
검색 엔진에서 색인을 생성하지 않으려는 웹 사이트가 있지만 archive.org에서 영원히 보존하고 싶습니다. 그래서 robots.txt이것으로 시작합니다. User-agent: * Disallow: / 오늘날 archive.org 에 따르면 robots.txt봇을 허용 하려면 다음을 추가해야합니다 . User-agent: ia_archiver Disallow: 그러나 나는 이미 2 년 전에 그들이 지시 한 것을 수행했으며 적어도 다음을 추가했습니다. User-agent: archive.org_bot Disallow: 그런 …

2
AJAX 크롤링 계획을 삭제해야합니까?
이제 Google은 AJAX 크롤링 체계를 더 이상 사용하지 않습니다 . 그들은 구글 봇이 이제 동적 콘텐츠를 보는 데 아무런 문제가 없기 때문에 더 이상 필요하지 않기 때문에 새로운 웹 사이트에서이를 구현하지 않아도된다고 말합니다. 이 진술을 즉시 신뢰해야합니까, 더 이상 사용되지 않는 표준을 준수하는 것이 더 낫습니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.