검색 엔진이 PDF 파일을 색인화하지 못하게하는 방법은 무엇입니까?


27

공개 웹 페이지에 PDF 문서에 대한 링크가 있습니다. 검색 엔진이이 링크 및 PDF 문서를 색인화하지 못하게하려면 어떻게합니까?

내가 생각한 유일한 아이디어는 보안 문자를 사용하는 것입니다. 그러나 검색 엔진에 링크 및 PDF 문서를 색인화하지 않도록 지시하는 마법의 단어가 있는지 궁금합니다. PHP 또는 JavaScript를 사용하는 옵션도 좋습니다.

분명히하기 위해. PDF를 암호화하고 암호로 보호하고 싶지 않습니다. 검색 엔진에서는 보이지 않지만 사용자에게는 보이지 않게하고 싶습니다.

답변:


32

PDF 파일 (또는 HTML이 아닌 파일)이 검색 결과에 표시되지 않도록하려면 HTTP X-Robots-Tag응답 헤더 를 사용하는 유일한 방법은 다음과 같습니다.

X-Robots-Tag: noindex

사이트의 루트 .htaccess 파일 또는 httpd.conf 파일에 다음 스 니펫을 추가하면됩니다.

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

위의 작업을 수행하려면 해당 파일의 HTTP 헤더를 수정할 수 있어야합니다. 따라서 예를 들어 GitHub Pages 에서이 작업을 수행하지 못할 수 있습니다 .

또한 robots.txt 는 페이지가 검색 결과에 표시되는 것을 막지 않습니다 .

봇이 페이지를 크롤링하지 못하도록 차단하지만 타사 웹 사이트 에서 PDF 파일로 링크하면 페이지가 계속 표시됩니다.

robots.txt를 사용하여 봇이 페이지를 크롤링하는 것을 중지 하면 X-Robots-Tag: noindex응답 태그 가 표시되지 않습니다 . 따라서 헤더 를 사용하는 경우 robots.txt 에서 페이지를 허용하지 마십시오 X-Robots-Tag. 자세한 내용은 Google Developers : Robots Meta Tag 에서 확인할 수 있습니다 .


해당 X-Robots-Tag가있는 페이지가 나중에 요청 된 경우 페이지 항목이있는 robots.txt가 X-Robots-Tag를 존중 / 종종하지 못하게하는 방법을 따르지 않습니다.
Don Cheadle

1
페이지가 요청되면 페이지 ( "Google")가 X-Robots-Tag 헤더를보고 색인을 생성하지 않는 것으로 알고 있지만 X-Robots-Tag는 크롤러에게만 유용한 것처럼 보입니다. 그런 다음 developers.google.com/webmasters/control-crawl-index/docs/…
Don Cheadle

regex enabled Files지시문을 사용하고 있으므로 FilesMatch여기서 제안 된대로 대신 대신 사용하는 것을 고려해야 합니다. stackoverflow.com/q/14792381/1262357
Gruber

14

이를 수행하는 방법에는 여러 가지가 있습니다 (이를 결합하는 것이 확실한 방법 임).

1) robots.txt 를 사용 하여 검색 엔진 크롤러에서 파일을 차단합니다.

User-agent: *
Disallow: /pdfs/ # Block the /pdfs/directory.
Disallow: *.pdf  # Block pdf files. Non-standard but works for major search engines.

2) rel="nofollow"해당 PDF 링크에 사용

<a href="something.pdf" rel="nofollow">Download PDF</a>

3) x-robots-tag: noindex크롤러가 색인을 생성하지 못하게 하려면 HTTP 헤더를 사용하십시오 . 이 코드를 .htaccess 파일 에 넣으십시오 .

<FilesMatch "\.pdf$">
  header set x-robots-tag: noindex
</FilesMatch>

2
직관을 모두 사용 x-robots-tag하고 robots.txt같은 시간에하는 것은 좋은 생각이 아니다 및 내용이 어쨌든 색인 될 수 있습니다. 당신이 모두를 사용하는 경우 robots.txtx-robots-tag: noindex, 크롤러는 크롤하지 않거나 볼 못할 것입니다 x-robots-tag그것은 첫째 기리는 때문에를 robots.txt. robots.txt리소스의 색인이 생성되는 것을 막지 않고 크롤링 만하는 것이 가장 좋습니다. 최상의 해결책은 x-robots-tag헤더 를 사용 하면서도 검색 엔진이 헤더를 크롤링하고 찾을 수 있도록하는 것입니다 robots.txt.
Maximillian Laumeister

1

robots.txt 파일을 사용할 수 있습니다 . 자세한 내용은 여기를 참조 하십시오 .


3
robots.txt를 사용해도 색인이 생성 되지 않습니다 . 크롤링 만 방지 합니다. 올바른 해결책 은 Pacerier 의 답변을 참조하십시오 .
toxalot

1

이 문턱이 누군가에게 어떤 가치를 가져다 줄지 확신 할 수 없지만 최근에 온-프레미스 GSA 상자가 PDF 파일의 색인을 생성하지 않을 것이라는 문제가 발생했습니다.

Google 지원팀에서이 문제를 해결했으며이 PDF 문서에 사용자 정의 속성 세트 (파일-> 문서 속성-> 사용자 정의 (탭))가 있다는 사실과 관련이 있습니다.

name: robots
value: noindex

GSA에서 올바르게 색인을 생성하지 못했습니다.

문서에 액세스 할 수 있고 문서의 속성을 수정할 수있는 경우 GSA에 대한 책임이 있습니다.


1

nginx 기반 개발 인스턴스가 Google 검색 결과에 표시되는 경우 검색 엔진이 사이트를 크롤링하지 못하게하는 빠르고 쉬운 방법이 있습니다. 크롤링을 방지하려는 블록에 대한 가상 호스트 구성 파일의 위치 블록에 다음 행을 추가하십시오.

add_header  X-Robots-Tag "noindex, nofollow, nosnippet, noarchive";

-2

robots.txt 파일을 사용할 수 있습니다. 해당 파일을 사용하는 검색 엔진 은 PDF를 색인화 하지 않습니다 . 파일 색인 생성을 금지하는 명령을 사용하고 검색 엔진에서 색인을 생성하지 않을 폴더 또는 PDF 파일을 지정하십시오.


4
robots.txt를 사용해도 색인이 생성 되지 않습니다 . 크롤링 만 방지 합니다. 올바른 해결책 은 Pacerier 의 답변을 참조하십시오 . robots.txt 파일 내에서 noindex 지시문을 사용하는 것에 대해 최근에 읽었지만 문서화되지 않았으며 비표준입니다. 그리고 지금 나는 그것을 읽는 곳을 찾을 수 없습니다.
toxalot

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.