«web-crawlers» 태그된 질문

다양한 목적으로 웹 페이지에 액세스하는 컴퓨터 프로그램 (콘텐츠 스크랩, 검색 엔진에 사이트 정보 등 제공)

1
존재하지 않는 trafficbasedsspsitemap.xml에 대한 Bingbot 요청
내가 관리하는 웹 사이트의 로그에는 Bingbot의 존재하지 않는 파일에 대한 요청이 표시됩니다. 요청의 세부 사항은 경로 : /trafficbasedsspsitemap.xml Useragent : "Mozilla / 5.0 (호환; bingbot / 2.0; + http://www.bing.com/bingbot.htm )" IP 주소 : 65.55.213.244 (역 조회는 msnbot-65-55-213-244.search.msn.com으로 해석 됨 ) Bingbot이이 파일을 찾는 이유는 무엇입니까? "트래픽 기반 SSP 사이트 맵"은 …


8
로봇이 페이지의 특정 부분을 크롤링하지 못하도록 방지
포럼이있는 소규모 사이트를 담당하는 웹 마스터로서 정기적으로 사용자로부터 내부 검색 엔진과 외부 검색 (Google을 사용할 때와 같은)이 모두 사용자의 서명 (오래 사용하고 있음)에 의해 오염된다는 불만을받습니다. 서명은 내 포럼에서 의미가 있기 때문에 포럼 경험의 일부입니다. 기본적으로 현재 두 가지 옵션이 있습니다. 서명을 그림으로 렌더링하고 사용자가 "서명 그림"을 클릭하면 서명이 포함 …

4
Yahoo Search는 Bing Search와 동일합니까?
우리는 과거에 야후의 (놀랍게도) 잘못 작성된 거미 와 관련하여 심각한 문제를 겪었고 , 그 결과 차단했습니다. Tumblr의 Marco Arment는 2009 년 8 월 31 일에 우리와 좌절감을 나누었습니다. [Yahoo 's Spider]는 EST 약 5:30 이후 초당 70-200 건의 요청으로 우리를 범람 시켰습니다. 나는 과거에 우리를 학대했던 그들의 "실험적인"크롤러들조차도 이와 같은 …


6
내 사이트를 크롤링하고 데드 링크 및 링크되지 않은 파일을 찾는 데 유용한 도구 [닫힘]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 웹 마스터 스택 교환에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 육년 전 . 나는 때때로 데이터베이스에서 설명하는 문자 그대로 수천 개의 PDF가있는 꽤 큰 레거시 사이트를 가지고 있지만 종종 페이지의 링크 일 뿐이며 사이트의 모든 …

3
Baiduspider 크롤링 빈도를 늦출 수 있습니까?
Baidu 스파이더 크롤링 빈도가 많이 만들어졌습니다. 사실 : "Baiduspider는 미친 듯이 기어 다닌다." 작업하는 사이트에서이 현상이 발생했습니다. 적어도 Baiduspider가 Baibot이 Google보다 약 0.1 % 많은 트래픽을 제공한다는 사실에도 불구하고 Baiduspider가 Googlebot과 거의 동일한 빈도로 크롤링되는 것을 발견했습니다. 내 방문을 그대로 유지하고 싶습니다. 언젠가는 커질 지 모르지만 서버에 과도한로드를 허용 할 …

3
어떤 사용자 에이전트를 설정해야합니까?
Ask bot이 있는데,이 헤더를 설정합니다 : Mozilla/2.0 (compatible; Ask Jeeves/Teoma) 이것을 고려할 때 다음과 같은 질문이 있습니다. Goofy라는 웹 크롤러를 작성하는 경우 어떤 사용자 에이전트를 사용해야합니까? 차이점은 내가 넣으면이다 Mozilla/2.0나 Mozilla/5.0? 현재 표준을 준수하도록 사용자 에이전트를 형식화하는 방법에 대한 다른 제안은 환영합니다.

3
SEO-반응 형 웹 사이트 및 복제 메뉴
반응 형 웹 사이트를 만들 때마다 보통 2 개의 메뉴를 만듭니다. 1은 숨겨져 모바일 용으로 사용되며 다른 하나는 기본 메뉴로 표시되며 숨겨져 모바일 메뉴가 표시됩니다. SEO와 스파이더가 웹 사이트를 탐색 할 때마다 메뉴가 중복되어 뿌려 지는가? 이 메뉴가 모바일 용이며 이것이 메인임을 거미에게 알리기 위해 할 수있는 일이 있습니까? 두 …

3
robots.txt가 서버의 하위 디렉토리에있을 수 있습니까?
검색 엔진 웹 크롤러에서 숨기려는 하위 디렉토리가 있습니다. 이를 수행하는 한 가지 방법 robots.txt은 서버의 루트 디렉토리에서 표준 방법 을 사용하는 것 입니다. 그러나 웹 사이트 URL을 알고 있고 기본적인 웹 지식이있는 사람은 robots.txt 내용에 액세스하여 허용되지 않는 디렉토리를 찾을 수 있습니다. 나는 이것을 피하는 방법을 생각했지만 효과가 있는지 확실하지 …

7
바이두 거미를 차단하는 방법
내 방문의 대부분은 바이두 거미에서 왔습니다. 검색 엔진에 전혀 도움이되지 않는다고 생각하므로 차단하는 방법을 생각하고 있습니다. iptables를 통해이 작업을 수행 할 수 있습니까? 웹 서버로 nginx를 사용하고 있습니다.

3
악성 봇이 스팸을 게시하지 못하도록 방지
오용으로 인해 사이트가 폐쇄 된 것을 기억 하며 봇에 일부가 있는지 궁금합니다. 봇이 내 사이트에 무언가를 게시하는 경우 어떻게 싸울 수 있습니까? 쿠키를 설정하고 JavaScript + 타임 스탬프 및 서명을 통해 쿠키를 변경하려고 생각했습니다 (그래서 어제 쿠키는 오늘과 다음 주에 사용할 수 없습니다). 나는 대부분의 사람들 / 봇이 봇에서 JavaScript를 …

3
Google은 링크가없는 도메인을 어떻게 찾습니까?
최근에 새 도메인을 등록하고 기존 서버를 가리키고 "테스트"라고하는 최소한의 페이지 만 설정했습니다. 방금 오늘 Google에서 페이지가 이미 색인되어 있음을 발견했습니다! 사이트에 대한 링크가 없습니다 (아직 도메인에 대해 아무것도하지 않았으므로 도메인에 대해 아무에게도 말하지 않았습니다). Google이 WHOIS 레코드를 트롤하고 있습니까?

4
robots.txt 및 sitemap.xml 파일이 .htaccess 리디렉션을 통해 동적 일 수 있습니까?
다국어 및 다중 도메인 사이트가 있습니다. 고유 한 CMS 설치 (Drupal)를 통해 실행되므로 단일 루트 디렉토리가 있습니다. 따라서 정적 robots.txt가 있으면 내가 아는 한 단일 도메인의 파일 만 표시 할 수 있습니다. .htaccess에 줄을 넣을 수 있습니까? Redirect 301 /robots.txt /robots.php (또는 동등한 지시 사항이며 허용되는 경우 지시하십시오) 그래서 그것은 …

2
내 사이트에서 봇을 차단해야하는 이유는 무엇입니까?
내 통나무는 종종 동유럽과 중국 출신의 봇 방문객으로 가득합니다. 봇은 Ahrefs, Seznam, LSSRocketCrawler, Yandex, Sogou 등으로 식별됩니다. 내 사이트에서이 봇을 차단해야합니까? 그 이유는 무엇입니까? 내 사이트로 유입되는 트래픽을 늘리는 데 합법적 인 목적은 무엇입니까? 그들 중 많은 사람들이 SEO입니다. 나는 내가보고 말을 적은 봇 이후 아무것도 큰 숫자에 도착 한 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.