답변:
PDF 파일 (또는 HTML이 아닌 파일)이 검색 결과에 표시되지 않도록하려면 HTTP X-Robots-Tag
응답 헤더 를 사용하는 유일한 방법은 다음과 같습니다.
X-Robots-Tag: noindex
사이트의 루트 .htaccess 파일 또는 httpd.conf 파일에 다음 스 니펫을 추가하면됩니다.
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
위의 작업을 수행하려면 해당 파일의 HTTP 헤더를 수정할 수 있어야합니다. 따라서 예를 들어 GitHub Pages 에서이 작업을 수행하지 못할 수 있습니다 .
또한 robots.txt 는 페이지가 검색 결과에 표시되는 것을 막지 않습니다 .
봇이 페이지를 크롤링하지 못하도록 차단하지만 타사 가 웹 사이트 에서 PDF 파일로 링크하면 페이지가 계속 표시됩니다.
robots.txt를 사용하여 봇이 페이지를 크롤링하는 것을 중지 하면 X-Robots-Tag: noindex
응답 태그 가 표시되지 않습니다 . 따라서 헤더 를 사용하는 경우 robots.txt 에서 페이지를 허용하지 마십시오 X-Robots-Tag
. 자세한 내용은 Google Developers : Robots Meta Tag 에서 확인할 수 있습니다 .
Files
지시문을 사용하고 있으므로 FilesMatch
여기서 제안 된대로 대신 대신 사용하는 것을 고려해야 합니다. stackoverflow.com/q/14792381/1262357
이를 수행하는 방법에는 여러 가지가 있습니다 (이를 결합하는 것이 확실한 방법 임).
1) robots.txt 를 사용 하여 검색 엔진 크롤러에서 파일을 차단합니다.
User-agent: *
Disallow: /pdfs/ # Block the /pdfs/directory.
Disallow: *.pdf # Block pdf files. Non-standard but works for major search engines.
2) rel="nofollow"
해당 PDF 링크에 사용
<a href="something.pdf" rel="nofollow">Download PDF</a>
3) x-robots-tag: noindex
크롤러가 색인을 생성하지 못하게 하려면 HTTP 헤더를 사용하십시오 . 이 코드를 .htaccess 파일 에 넣으십시오 .
<FilesMatch "\.pdf$">
header set x-robots-tag: noindex
</FilesMatch>
x-robots-tag
하고 robots.txt
같은 시간에하는 것은 좋은 생각이 아니다 및 내용이 어쨌든 색인 될 수 있습니다. 당신이 모두를 사용하는 경우 robots.txt
와 x-robots-tag: noindex
, 크롤러는 크롤하지 않거나 볼 못할 것입니다 x-robots-tag
그것은 첫째 기리는 때문에를 robots.txt
. robots.txt
리소스의 색인이 생성되는 것을 막지 않고 크롤링 만하는 것이 가장 좋습니다. 최상의 해결책은 x-robots-tag
헤더 를 사용 하면서도 검색 엔진이 헤더를 크롤링하고 찾을 수 있도록하는 것입니다 robots.txt
.
이 문턱이 누군가에게 어떤 가치를 가져다 줄지 확신 할 수 없지만 최근에 온-프레미스 GSA 상자가 PDF 파일의 색인을 생성하지 않을 것이라는 문제가 발생했습니다.
Google 지원팀에서이 문제를 해결했으며이 PDF 문서에 사용자 정의 속성 세트 (파일-> 문서 속성-> 사용자 정의 (탭))가 있다는 사실과 관련이 있습니다.
name: robots
value: noindex
GSA에서 올바르게 색인을 생성하지 못했습니다.
문서에 액세스 할 수 있고 문서의 속성을 수정할 수있는 경우 GSA에 대한 책임이 있습니다.
robots.txt 파일을 사용할 수 있습니다. 해당 파일을 사용하는 검색 엔진 은 PDF를 색인화 하지 않습니다 . 파일 색인 생성을 금지하는 명령을 사용하고 검색 엔진에서 색인을 생성하지 않을 폴더 또는 PDF 파일을 지정하십시오.