검색 엔진이 PDF를 크롤링하고 그럴 경우 따라야 할 규칙이 있습니까?


22

내가 작업하는 웹 사이트에는 수백 개의 PDF가 있습니다. 나는 그들이 검색에서 돌아 오는 것을 본 적이 없다고 생각하지만 외부 사이트에서 직접 연결되어 있습니다. 제품 문서이므로 키워드로 가득합니다.

Google이나 다른 검색 엔진이 크롤링하도록하기 위해 특별한 조치가 필요합니까?

Google이 더 좋아하는 PDF를 만드는 데 도움이되는 강력하고 빠른 규칙이 있습니까? 예를 들어, 생성 중에 Adobe가 생성 한 깨진 PDF 태그를 정리하기 위해 고스트 스크립트를 통해이를 실행해야합니까?


그들이 알고 있는지 확인하기 위해 XML 사이트 맵에 추가 하시겠습니까?
artlung

답변:


17

Google은 PDF 파일의 색인을 생성 하며 검색어에 추가 filetype:pdf하여 PDF 파일 만 검색 할 수 있습니다 ( ).

PDF를 최적화하기 위해해야 ​​할 주요 작업은 다음과 같습니다.

  • 의미있는 파일 이름을 지정하십시오
  • 모든 문서 메타 데이터 속성 (제목, 저자, 키워드 등)을 완성하십시오
  • PDF가 실제 텍스트로 구성되어 있고 스캔 된 이미지가 아닌지 확인하십시오
  • HTML 문서와 마찬가지로 제목을 올바로 사용하여 좋은 콘텐츠를 확보하십시오.

자세한 내용은 PDF 문서 최적화11 가지 팁을 참조하십시오. 검색 엔진 용 PDF 최적화


링크 labs.justsearching.co.uk/optimizing-pdf-documents-621.html 더 이상 작동하지 않습니다

@Christofian 감사합니다-링크를 업데이트했습니다. 나는 301 리디렉션없이 링크의 이름을 바꾸는 SEO 회사의 아이러니를 이해하기 위해 독자에게 맡길 것입니다!
Dan Diplo

PDF 파일의 SEO와 관련하여 @DanDiplo 해당하는 경우 콘텐츠에 링크를 추가하는 것이 좋습니다.
Anagio

1

다른 검색 엔진에 대해서는 잘 모르겠지만 Google이 우려하는 한 robots.txt를 통해 제외하지 않는 것이 기본 규칙입니다.

이것은 PDF 검색 지원에 대한 최초의 발표였습니다.


1

웹 사이트를 준수하는 것이 SEO를 해치지 않는 것처럼 PDF를 액세스 가능하게 만드는 것은 해를 끼치 지 않습니다. Adobe 기본 제공 접근성 검사기는 완벽하지는 않지만 최소한 해당 영역을 수정하면 시작할 수 있습니다.

아마 4 ~ 5 분마다 5 분을 보내는데, 대부분 온라인에 넣은 텍스트 PDF입니다. 페이지 수와 해당 페이지의 복잡도에 따라 시간이 고르게 올라갑니다.

편집을 수행 할 Adobe Acrobat Pro가 있다고 가정합니다.

  • 내게 필요한 옵션 전체 검사를 실행하십시오. (빠른 확인은 나에게 무의미합니다)
  • 문서 속성 (키워드, 주제, 언어 등)에서 메타 정보 업데이트
  • 태그가 추가되었는지 확인
  • 텍스트에 텍스트, 이미지로 이미지, 배경으로 배경으로 태그가 지정되어 있는지 확인하십시오.
  • 쓸모없는 보풀 (예 : 장식 또는 디자인)을 배경으로 태그 지정
  • 이미지에 좋은 대체 텍스트를 추가하십시오
  • 읽기 순서에서 텍스트가 올바르게 정렬되어 있는지 확인하십시오.
  • 컨텐츠 도구 모음에서 텍스트가 복제되거나 잘못 번역되지 않았는지 확인하십시오.
  • 스캔 한 페이지에서 OCR 스캐너 사용

테이블과 같은 고급 편집 및 정말 이상한 Adobe 오류를 위해 CommonLook이라는 플러그인을 사용합니다. CommonLook은 작업을 수행하지만 Adobe 도구를 싫어하는 것만 큼 싫어합니다.

Touch Up Reading Order 도구, Tags 도구 모음, Reading Order 도구 모음 및 Content 도구 모음에 익숙해 지십시오. 저의 업무는 웹을 사용하기 전에 완전히 호환되는 문서가 필요하지만 간단한 태깅 및 문서 속성의 이점을 누릴 수 있습니다.


우리 사이트에는 5,000 개가 넘는 PDF가 있었으며 다시 돌아가서 508 개의 규정을 준수해야했습니다. 배우는 데 시간이 걸렸지 만 Adobe에서 제안한 트레이너는 도움이되지 않았지만 일단 배우면 실제로 압축 할 수 있습니다.
MrChrister
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.