Google에서 PDF 문서를 색인화하려면 어떻게해야합니까?


14

Google이 사이트에서 PDF 파일을 색인 생성하는 데 문제가 있습니다. PDF는 약 50 개이며 크기는 20KB에서 2 메가 미만입니다. 보호되지 않고 익명으로 읽을 수 있으며 PDF Reader 내부에서 문서를 검색 할 수 있습니다.

SiteMap.xml에 나열되어 있습니다. IIS 로그를보고 Googlebot이 PDF 파일을 읽는 것을 볼 수 있지만 5 개를 제외하고는 검색 결과에 포함되지 않습니다.

filetye : pdf를 수행하면 5 개의 PDF 만 표시됩니다. 내가 알고있는 텍스트를 검색하면 PDF 내부에서 PDF가 표시되지 않습니다 (인덱싱 된 5 개 제외).

사이트 맵에 있고 Googlebot이 읽고 있는데도 45 개 이상의 PDF 문서가 색인에 포함되지 않은 이유를 아는 사람이 있습니까?


Google의 콘텐츠 유형을 지정하고 있습니까?
Chris Ballance

답변:


4

모든 PDF가 같은 지점에 있습니까? 한때 내 pdf 위치 중 하나가 robots.txt에 의해 제외 된 폴더 안에 있다는 문제가있었습니다. Google 웹 마스터 도구 사이트에 직접 사이트 맵을 제출하면 PDF가 표시되지 않는 이유에 대한 유용한 정보를 얻을 수 있습니다. 필자의 경우 Google에서 '이 54 개의 PDF 문서는 사이트 맵에 있지만 robots.txt 제한으로 인해 색인을 생성 할 수 없습니다'라고 말했습니다. 꽤 도움이되었습니다. 그러나 주석가의 말을 기억하십시오.이 정보가 나타날 때까지 시간이 걸릴 수 있습니다.

Google 웹 마스터 도구 : https://www.google.com/webmasters/tools


Google 웹 마스터 도구가 모든 정보를 실시간으로 제공하지는 않습니다. 그래도 여전히 중요한 리소스입니다.
Liam

아니요, PDF는 사이트의 여러 위치에 있습니다. 나는 점검했지만 robots.txt에 의해 차단되는 것은 없습니다. 웹 마스터 도구를 사용하고 Sitemap을 제출했으며 계속 진행할 것입니다. 의견을 보내 주셔서 감사합니다. Jim

1

처음에 콘텐츠를 읽는 Google과 색인에 나타나는 콘텐츠 사이에는 상당한 차이가있을 수 있습니다. Google은 최근 사이트를 다시 시작하여 출시시 Google에 사이트 맵을 제출했으며 새 페이지가 검색 결과에 표시되기까지 약 3 주가 걸렸습니다.

얼마나 오래 전에 사이트 맵을 통해 이러한 PDF를 제출 했습니까?

(인덱싱 된 5 개 제외)

PDF가 색인 생성되는 것처럼 들리지만 시간이 오래 걸립니다. 색인이 생성되지 않은 PDF가 생성되는 방식에 차이가 없다고 가정하면 색인을 업데이트하는 데 시간이 오래 걸리는 것 같습니다.

약간의 접선에서 가입을 권유하는 유용한 도구 중 하나는 Google 웹 마스터입니다 . 크롤링 속도, 사이트 관련 문제, 사이트 맵 및 하루 안에 Googlebot이 사이트를 방문하는 등의 색인 생성을 보여줍니다. IIS 로그를 통해 시간을 절약 할 수 있습니다.


사이트 맵을 처음 제출 한 지 약 4 주가 지났습니다. 방금 어제 밤에 4 개 더 색인을 생성했음을 알았습니다. 그래서 어쩌면 난 그냥 기다려야 계속 :)

사이트를 다시 시작했을 때 새 페이지가 검색 결과에 표시되기까지 3 주가 걸린다고해서 3 주 동안 사이트에 더 이상 존재하지 않는 페이지로 검색 결과가 반환 된 것은 아닙니까? 이로 인해 많은 '페이지를 찾을 수 없음'조건이 발생하지 않았습니까?

우리의 상황에서, 재실행은 새로운 섹션의 출시와 함께 시작되었고, 오래된 링크는 여전히 작동했습니다. 3주는 새로운 섹션이 나타나기 시작하는 시간이었습니다. 임의 대기 시간은 약간 실망 스러울 수 있습니다!
ConroyP

0

텍스트를 선택하고 검색 할 수 있도록 PDF 파일을 OCR로 스캔합니까? 또는 OCR없이 PDF 파일을 스캔하고 있습니까?이 경우 텍스트가 큰 이미지로 저장됩니까? PDF가 모든 이미지라면 Google이 색인을 생성 할 수 있다고 생각하지 않습니다. 아니면 지금까지 Google에서 페이지를 찾았습니까?


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.