«robots.txt» 태그된 질문

Robots.txt는 웹 사이트 소유자가 자신의 사이트에 대한 지침을 웹 로봇에 제공하기 위해 사용하는 텍스트 파일입니다. 기본적으로 로봇은 사이트의 어떤 부분이 열려 있고 어떤 부분이 닫혀 있는지 알려줍니다. 이것을 로봇 배제 프로토콜이라고합니다.

5
robots.txt를 확인하기 위해 Google을 호출 할 수 있습니까?
이 질문에 대한 답변을 읽었지만 여전히 내 질문을 열어 둡니다. Google은 robots.txt를 캐시합니까? Google 웹 마스터 도구에서 robots.txt를 다시 다운로드하는 방법을 찾지 못했습니다 . 일부 오류로 인해 robots.txt 가 다음으로 대체되었습니다. User-agent: * Disallow: / 이제 모든 콘텐츠가 Google 검색 결과에서 삭제되었습니다. 분명히, 나는 이것을 가능한 빨리 수정하는 데 관심이 …

3
Google 미리보기는 Robots.txt를 준수합니까?
그것이 마치 겉 모습처럼 보이기 때문입니다. 내 사이트의 경우 이미지 디렉토리를 허용하지 않으며 미리보기에는 이미지가 모두 누락되어 사이트가 엉뚱 해 보입니다. 이 경우이며 미리보기 봇만 robots.txt를 사용하여 이미지에 액세스 할 수있는 방법이 있습니까? 편집 : 미리보기는 일반 Google Bot과 웹 마스터 센터 블로그 에서 언급 한 것처럼 즉시 봇 Google …

1
robots.txt에서 사용자 에이전트 결합
사용자 에이전트를 함께 나열한 다음 robots.txt 에 공통 규칙을 붙일 수 있습니까? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

3
사이트 맵 색인에 다른 사이트 맵 색인이 포함될 수 있습니까?
여러 언어로 된 사이트 맵 (동영상 용, 정적 콘텐츠 용 및 기 사용)에 연결되는 각 언어에 대한 사이트 맵 색인이있는 이중 언어 웹 사이트가 있습니다. 사이트 맵 색인을 연결하는 다른 사이트 맵을 소개하고 싶습니다. 따라서 루트의 robots.txt에서 해당 사이트 맵을 링크 할 수 있으며 각 언어에 대해 robots.txt가 하나도 필요하지 …

1
robots.txt의“Noindex :”는 어떻게 작동합니까?
오늘 SEO 뉴스 에서이 기사 를 살펴 보았습니다 . robots.txtNoindex: 의 표준 Disallow:지시문 외에도 지시문 을 사용할 수 있음을 의미합니다 . Disallow: /page-one.html Noindex: /page-two.html 검색 엔진이 페이지 1을 크롤링하지 못하게하고 페이지 2를 색인 생성하지 못하게하는 것처럼 보입니다. 이 robots.txt 지정 문은 Google 및 기타 검색 엔진에서 지원됩니까? 작동합니까? 문서화되어 …

2
Google 및 Bing 봇만 사이트를 크롤링하도록 허용
사이트에 다음 robots.txt 파일을 사용하고 있습니다. 대상은 Googlebot 및 bingbot이 페이지를 제외한 사이트에 액세스하고 /bedven/bedrijf/*다른 모든 봇이 사이트를 크롤링하지 못하도록 차단하는 것입니다. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: * Disallow: / …

3
robots.txt를 사용하여 하위 도메인 만 허용하지 않으려면 어떻게해야하나요?
내 코드베이스는 여러 환경 (라이브, 준비, 개발) 및 하위 도메인 (간에 공유 staging.example, dev.example등)와 두 크롤링하도록 허용 (예.해야 www.example하고 example). 일반적으로 수정 /robots.txt하고 추가 Disallow: /하지만 공유 코드 기반으로 인해 /robots.txt모든 (하위) 도메인에 영향을 미치지 않으면 수정할 수 없습니다 . 그것에 대해 어떻게 생각하십니까?

6
archive.org 봇을 올바르게 허용하는 방법은 무엇입니까? 언제 상황이 바뀌 었습니까?
검색 엔진에서 색인을 생성하지 않으려는 웹 사이트가 있지만 archive.org에서 영원히 보존하고 싶습니다. 그래서 robots.txt이것으로 시작합니다. User-agent: * Disallow: / 오늘날 archive.org 에 따르면 robots.txt봇을 허용 하려면 다음을 추가해야합니다 . User-agent: ia_archiver Disallow: 그러나 나는 이미 2 년 전에 그들이 지시 한 것을 수행했으며 적어도 다음을 추가했습니다. User-agent: archive.org_bot Disallow: 그런 …

10
봇이 웹 서버를 종료하지 못하게해야 함
내 호스팅 계정 내 일부 웹 사이트에서 EXTREME 봇 문제가 발생했습니다. 봇은 전체 호스팅 계정에 98 % 이상의 CPU 리소스와 99 %의 대역폭을 사용합니다. 이 봇은 내 사이트에 대해 시간당 1GB 이상의 트래픽을 생성 합니다. 이러한 모든 사이트의 실제 인적 트래픽은 100MB / 월 미만 입니다. 이러한 봇을 차단하기 위해 …

1
검색 엔진에서 Wordpress 보관 페이지를 차단해야합니까?
/sample-post/내 게시물과 /yyyy/mm/보관소에 WordPress와 URL을 사용 합니다. 구글은 사이트를 완전히 색인했다. 아카이브는 현재 전체 게시물을 표시하기 때문에 전체 게시물이 포함되어 있으며 콘텐츠가 중복되므로 Google이 아카이브 페이지에 색인을 생성해서는 안된다고 생각했습니다. 따라서 내 robots.txt에는 다음이 포함됩니다. Disallow: /2009/ Disallow: /2010/ Disallow: /2011/ Disallow: /2012/ Disallow: /2013/ Disallow: /2014/ Disallow: /2015/ 이것이 …

4
도메인에 의해 거부 된 로봇은 여전히 ​​검색 결과에 나열됩니다
따라서 검색 대상이 아닌 모든 사이트에 robots.txt 파일을 적용했습니다 ( 실시간 Google 검색 결과에서 웹 사이트를 제외하는 방법? 또는 기타 유사한 질문). 그러나 검색어가 충분히 구체적이면 결과를 통해 도메인 자체를 찾을 수 있습니다. 이에 대한 예는 여기 에서 찾을 수 있습니다 . 링크에서 볼 수 있듯이 도메인 자체를 찾을 수 …
9 seo  robots.txt 
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.