Google이 sitemap.xml에서 페이지 색인 생성을 중지 한 이유는 무엇입니까?


18

Google에 일부 페이지가 sitemap.xml있지만 Google의 공개 검색 색인에서 누락 된 페이지가 있습니다 .

/superuser//sitemap.xml을 다운로드 할 수 없습니다 . 과거에 문제가 있었기 때문에이 파일을 보호하지만 Googlebot은이 파일을 보호 할 수 있습니다. Google 웹 마스터 도구를 통해 sitemap.xml파일이 오늘 풀다운되었으며 오류없이 녹색으로 표시되어 있음을 확인했습니다 (녹색 확인 표시).

대체 텍스트

여기 sitemap.xml에는 당사 사이트에서 요청 된 최근 50,000 개의 질문 목록 이 포함되어 있습니다. 예를 들어,이 질문은 ...

/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links

...에 존재합니다 sitemap.xml...

<url>
<loc>/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links</loc>
<lastmod>2010-10-20</lastmod>
<changefreq>daily</changefreq>
<priority>0.2</priority>
</url>

"심볼릭 링크의 긴 체인의 끝을 보는 방법"을 검색 하면 questionhub.com에 하나의 결과 만 제공됩니다.

질문 수를 늘리고 질문 제목을 정확하게 검색하면이 패턴이 지속됩니다.

이 URL은 다음 sitemap.xml의 그러나 그들은 Google 색인에 표시되지 않습니다 - 아직 그들은 우리 크리에이티브 커먼즈 데이터를 긁어 사이트에 표시됩니다. 왜 그런가요?


5
Google 웹 마스터 중앙 포럼에서 언제든지 요청할 수 있습니다. google.com/support/forum/p/Webmasters?hl=ko
Alex Black

뭔가 잘못 됐어 이 질문은 이미 Google에서 색인 작성되었지만 수퍼 유저 STILL에 대한 링크 된 질문은 색인에 표시되지 않습니다.
Michael Pryor

Jeff는 Matt Cutts에게 물어 보는 것을 생각할 수도 있습니다. 나는 그들이 트위터에서 서로 몇 번 이야기하는 것을 보았습니다. 그는 대개 기꺼이 도와 줄 것입니다.
Virtuosi Media

3
FWIW 현재 일부 사이트에서 새 콘텐츠 색인 생성에 문제가 있습니다. 도움말 포럼 ( google.com/support/forum/p/Webmasters/…) 에 스레드가 있습니다 . 언급하신 URL이 영향을받은 것으로 보입니다. 이 문제가 곧 해결 될 것이라고 생각하지만 사용 가능한 수정 기간이 없습니다. 양해 해 주셔서 감사합니다.
John Mueller

1
이 문제가 현재 해결 된 것 같습니다 :-). 사이트에서 몇 가지 새로운 질문을 시도했지만 모두 색인되었습니다. 우와!
존 뮬러

답변:


10

구글은 이번 주에 그 소리 기술적 크롤링 문제가 된 것 같습니다 현저하게 우리가 경험 한 등이 :

http://searchengineland.com/is-google-broken-sites-big-small-seeing-indexing-problems-53701

많은 사이트 소유자가 당황한 Google 색인 생성 문제에 영향을받지 않는 것 같습니다. 크든 작든 블로그와 웹 사이트는 색인을 생성하는 경우 평소처럼 빨리 색인을 생성하지 않습니다.

...

Google의 John은 웹 마스터 포럼의 스레드에 다음과 같이 대답했습니다.

분명히 내가 자세히 살펴본이 스레드의 문제는 정책 변경이나 알고리즘 변경으로 인한 것이 아닙니다. 가능한 한 빨리 눈에 띄게 해결 될 기술적 문제로 인해 발생합니다 (모든 사이트에 표시 되려면 며칠이 걸릴 수 있음)


7

Google은 사이트 맵의 페이지 색인 생성을 보증하거나 제공하지 않습니다.

내 경험에 따르면 페이지가 (일부 권한의 페이지에서) 링크되어 있어야합니다. 해당 페이지 / 질문이 일부 권한이있는 페이지에서 직접 / 간접적으로 연결되어 있습니까?

예를 들어 superuser.com 홈페이지 (아마도 많은 인 링크를 가지고 있음)가이 질문에 직접 연결되거나 다른 여러 페이지를 통해 간접적으로 연결되는 경우 색인이 생성 될 것으로 예상 할 수 있습니다.

구글에서 :

Google은 모든 URL을 크롤링하거나 색인 생성한다고 보장하지 않습니다. 그러나 Google은 Sitemap의 데이터를 사용하여 사이트 구조를 파악하여 크롤러 일정을 개선하고 향후 사이트 크롤링 작업을 개선 할 수 있습니다. 대부분의 경우 웹 마스터는 Sitemap 제출의 혜택을보고 어떠한 경우에도 처벌을받지 않습니다.

http://www.google.com/support/webmasters/bin/answer.py?hl=ko&answer=156184


4
수퍼 유저는 사이트 맵 유무에 관계없이 해당 페이지의 색인을 생성 할 수있는 충분한 링크와 PR을 가지고 있어야합니다. 그리고 마이너 페이지는 항상 나열됩니다. 실제로 그들은 대부분의 지수를 구성합니다. 다른 것이 범인이라고 생각합니다.
John Conde

이 사이트에는 많은 PR과 인 링크가 있습니다. 그러나 문제의 페이지에 링크가 없을 가능성이 있습니까? superuser.com이 우연히 페이지에 연결되지 않으면 Google에 무엇을 알려줍니까? 그것은 페이지가 중요하지 않다고 말합니다.
Alex Black

2
페이지는 프론트 페이지에서 확실히 링크되었으며 다른 여러 페이지에서 계속 링크되어 있습니다. SE 사이트는 매우 교차 결합되어 있습니다.
Kevin Montrose

1
어제 어느 시점에서 테스트 질문에 대한 히트 중 하나는 superuser.com 홈페이지입니다. Google 캐시에서도 대상 URL이 표시됩니다! 그러나 질문 자체는 색인되지 않았습니다. 매우 이상합니다.
Jeff Atwood

2
절대적으로-홈페이지의 HOT 탭 또는 WEEKLY 또는 MONTHLY 탭을 클릭하십시오. 바로 거기 ..
Jeff Atwood

3

Google이 귀하의 웹 페이지를 색인 생성하는 데 어려움을 겪고 있다고 생각합니다. 50.000이 많습니다. 제 제안은 사이트 맵을 조각으로 나누는 것입니다.

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

분석하면 50.000 개의 URL을 색인화하는 것이 더 좋습니다.

문제에 대한 Sitemaps.org 설명

여러 개의 Sitemap 파일을 제공 할 수 있지만 제공하는 각 Sitemap 파일의 URL은 50,000 개 이하 여야하며 10MB (10,485,760 바이트) 이하 여야합니다. 원하는 경우 gzip을 사용하여 Sitemap 파일을 압축하여 대역폭 요구 사항을 줄일 수 있습니다. 그러나 압축되지 않은 사이트 맵 파일은 10MB를 넘지 않아야합니다. 50,000 개가 넘는 URL을 나열하려면 여러 개의 Sitemap 파일을 만들어야합니다.

여러 개의 Sitemap을 제공하는 경우 각 Sitemap 파일을 Sitemap 색인 파일에 나열해야합니다. Sitemap 색인 파일은 50,000 개 이하의 Sitemap을 나열 할 수 없으며 10MB (10,485,760 바이트)보다 크지 않아야하며 압축 할 수 있습니다. Sitemap 색인 파일을 두 개 이상 가질 수 있습니다. Sitemap 색인 파일의 XML 형식은 Sitemap 파일의 XML 형식과 매우 유사합니다.

http://sitemaps.org/protocol.php


2
50,000 페이지의 사이트 맵이 매우 일반적입니다. 실제로 누군가 최근에 웹 마스터 계정에서 스크린 샷을 게시하여 Google이 거의 5 만 페이지를 색인 생성했음을 보여줍니다. 그리고 나는 수퍼 유저가 다른 사이트보다 더 인기가 있다고 생각합니다 (예 : 더 나은 링크 인기를 가지고 있습니다).
John Conde

1
"목록에 50,000 개가 넘는 URL이 있습니다. 하나의 Sitemap에 포함 할 수있는 최대 값입니다." sitemaps.blogspot.com/2005/08/using-sitemap-index-files.html
Jeff Atwood

1
매일 사이트 맵이있는 경우 하루가 지나도 변경되지 않으므로 사이트 맵을 다시 평가할 필요가 없으므로 이미 색인을 생성 한 링크를 크롤링하여 Google에서 검색 할 필요가 없습니다. 50,000 개의 URL로 어느 것이 오래되고 새로운 지 알 수 있습니다.
Sevki

@sevki ACTIVITY DATE (최신 답변, 수정 사항 등)에 의한 가장 오래된 50,001 번째 질문은 사이트 맵에 없습니다. 수퍼 유저는 총 55k 개의 질문 만 가지고 있음을 명심하십시오.
Jeff Atwood

@Jeff 그러나 SO.com은 1,014,782를 가지고 있으며 964,782는 사이트 맵에 없으므로 Google 또는 bing은 마지막으로 수정 된 시간을 알지 못합니다. 어쨌든 난 그냥 도와 주려고 성가신 싶지 않아, 나는 당신에게 몇 가지 자세한 내용과 함께 이메일을 보냈습니다.
Sevki

2

구글이 46,514 제출 링크가 없다는 것 같습니다 있다 인덱스에. 페이지 순위와 관련하여 문제가 될 수 있습니까? 스크래핑 사이트는 더 나은 작업 교차 링크 등을 수행하고 순위가 높을 수 있습니다. 그냥 생각이야

이 검색 사이트 : superuser.com 긴 링크 심볼릭 링크의 끝을 보는 방법 은 예상 된 결과를 반환하지 않지만 sitemap.xml을 올바르게 가져 오는 것으로 보입니다.


이 스크래핑 사이트는 superuser.com에 원래 작성자로서 속성을 제공하므로 (명백 할 수는 있지만) Google은 콘텐츠의 원래 작성자임을 알고 스크래핑 사이트보다 우선합니다.
John Conde


캐시 된 사이트 맵은이 글을 쓰는 시점에서 4 일 전에 "2010 년 10 월 17 일 05:40:35 GMT에 표시됨"으로, 그다지 많지 않습니다. 캐시 된 sitemap.xml에서 몇 가지 URL을 확인했으며 Google에서도 질문 페이지로 존재합니다.
Jeff Atwood

@john 당신은 그들이 어떻게 기여를 보여주는 예를 줄 수 있습니다. Thx
Greg B

@Greg, 수퍼 유저 로고를 찾으십시오
John Conde

2

이러한 유형의 경우 많은 잠재적 인 답변이 있습니다.

당신이 실제로 가지고있는 페이지 수를 묻는 것부터 시작하겠습니다. (빠른 사이트 50,000 개의 URL을 제출했습니다 : superuser.com show 125,000 indexed 50K 개의 URL 만 있고 모든 URL을 제출하고 있다고 생각하십니까? Google이 각 페이지의 2-3 개 사본을 찾는 중입니까? 큰 그림을 얻으면 문제를 찾을 위치를 지시하는 데 도움이됩니다.

1 단계에서 문제가없는 것으로 판단되면 콘텐츠로 넘어가겠습니다. QH가 페이지에 훨씬 더 많은 콘텐츠를 가지고 있고 모든 콘텐츠가 긁혔음에도 불구하고 다른 많은 '리소스'를 연결하는 것처럼 보입니다. 더 많은 리소스 / 정보를 사용자에게 제공하기 때문에 더 유용합니다. 권한으로 간주되고 모든 콘텐츠가 자신의 콘텐츠와 동일하면 원본 인 경우에도 Google에서 색인을 생성하지 않을 수 있습니다.

문제가 아니라고 확신하는 경우 고품질 링크를 구축하고 인기있는 직원 블로그 에이 질문을 블로그하거나 블로그에 대해 친구에게 요청하십시오. 인기 블로그를 운영하는 SEO 친구가 있다면 그것에 관한 사례 연구

강력한 링크가 많이 있어도 색인이 생성되지 않는 이유는 불이익을받을 수 있습니다 (대부분의 경우 이것이 문제가되지는 않지만 확인하기에는 결코 아프지 않습니다).

이 중 어느 것도 작동하지 않으면 10 중 9 번이 간과 한 간단한 기술적 문제입니다 (로봇 제외 또는 이와 유사한 것).

이 과정을 거친 후에도 여전히 답이 없으면 Google에 문의하여 답변을 받으시기 바랍니다.


0

질문은 어제 방금 요청되었습니다. googlebot에게 기회를주십시오. 인터넷에서 그가 크롤링 해야하는 유일한 사이트는 아닙니다 :)

질문이 일반적으로 하루 정도에 색인 작성되고 일주일이 지났는데도 여전히 색인이 작성되지 않으면 걱정할 수 있습니다. 그러나 확실히 하루가 지나지 않았습니다.


1
보통 1 시간 이내에 나타납니다. 그래서 동의합니다. 시간을 주어야하지만 일반적인 빈도와 관련하여 ... 나는 가지고 있습니다.
Michael Pryor

@michael은 사과와 사과를 비교하고 있는지 확인하십시오 .Google은 다른 사이트보다 훨씬 높은 속도로 stackoverflow.com을 색인하는 것으로 보입니다.
Jeff Atwood
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.