이 주제에 대한 나의 연구에 따르면, 데이터의 인덱싱 및 캐싱을 방지 할 수있는 100 % 보장 된 방법은 없지만 봇 트래픽 증가를 처리하려고한다고 가정하면 상당히 가까이 다가올 수 있습니다. 정보를 해석 한 방법은 다음과 같습니다.
robots.txt 파일은 로봇 정보를 사이트 전체에 정의하는 데 사용되고 메타 태그는 페이지 별 세부 정보에 사용됩니다. 나는 2의 뒤에있는 정신이 정확히 이것이라고 생각하지만 실제로는 그렇지 않습니다.
robots.txt 파일을 만들지 마십시오
이는 모든 주요 검색 공급자와 함께 작동하여 SERP에 콘텐츠가 표시 되지 않도록 하지만 색인 생성을 방지 하지는 않습니다 . 또한 로봇이 페이지를 크롤링하지 못하도록 방지하므로 로봇 메타 태그 (아래 참조)도 무시됩니다. 이 때문에 2를 함께 사용할 수 없으므로 색인 작성을 방지하려면 robots.txt 파일을 사용하지 않아야합니다.
참고 : Google은 Noindex: /
robots.txt에서 의 사용을 지원 하지만 문서화되지 않았으며 (누가 언제 알게되는지) 다른 사람에게도 적용되는지 알 수 없습니다.
HTTP 헤더 또는 HTML META 태그를 사용하여 모든 것을 방지하십시오.
robots.txt 파일과 달리 robots 메타 태그 (및 HTTP 헤더)는 널리 지원되며 놀랍게도 기능이 풍부합니다. 각 페이지에 설정되도록 설계되었지만 최근 X-Robots-Tag
헤더를 채택하면 사이트 전체를 쉽게 설정할 수 있습니다. 이 방법의 유일한 단점은 봇이 사이트를 크롤링한다는 것입니다. 이것은 nofollow
봇 을 사용하여 제한 될 수 있지만 모든 봇이 진실하게 존중하는 것은 아닙니다 nofollow
.
이 오래된 블로그 게시물 에서 많은 정보를 발견했습니다 . 최초 릴리스는 2007 년이지만 그 이후로 많은 정보가 최신 기능이므로 정기적으로 업데이트되는 것으로 보입니다.
요약하면의 HTTP 헤더를 보내야합니다 X-Robots-Tag: noindex,nofollow,noodp,noydir
. 이유는 다음과 같습니다.
nofollow
사이트에서 크롤링되는 페이지 수를 제한하여 봇 트래픽을 줄입니다. * noindex
페이지에 색인을 생성하지 않도록 엔진에 지시합니다.
- 이제는
noindex
충분 하다고 가정 할 수 있습니다. 그러나 noindex
귀하가 귀하의 사이트가 링크 된 다른 사이트로 인해 색인이 생성 될 수 있다고 말한 경우도 있습니다 . Y에서 일반적인 사이트 링크를 방지하는 가장 좋은 방법! 디렉토리 ( noydir
) 및 열린 디렉토리 ( noodp
).
- HTTP 헤더를 사용하여 도 파일, 이미지 및 기타 비 HTML 파일을 로봇에게 데이터를 적용! 예!
이것은 99 %의 경우에 효과가 있습니다. 경우에 따라 일부 제공자가 색인을 생성 하는 것이 여전히 가능 하다는 점을 명심하십시오 . Google은을 완전히 존중한다고 주장 noindex
하지만 의심합니다.
마지막으로 색인을 생성했거나 이미 색인을 생성 한 경우 정보를 색인 해제하는 유일한 방법은 각 제공 업체의 다양한 방법을 따라 사이트 / URL 제거를 요청하는 것입니다. 분명히 이것은 아마도 Google Alerts (@Joe 덕분에) 와 같은 것을 사용하여 사이트 / 페이지를 모니터링하고 싶을 것입니다 .