Google은 여전히 ​​404를 찾을 수없는 이전의 더미 테스트 페이지를 크롤링하고 색인을 생성합니다.


19

샘플 페이지 및 데이터 (lorem ipsum 등)로 내 사이트를 설정했으며 Google에서이 페이지를 크롤링했습니다. 이 페이지를 모두 삭제하고 실제 콘텐츠를 추가했지만 웹 마스터 도구에서 Google이이 페이지를 크롤링하려고 시도하는 중에도 404 오류가 계속 발생합니다. "해결 된 것으로 표시"하도록 설정했지만 일부 페이지는 여전히 404로 돌아옵니다.

또한 Google에서 내 사이트를 검색 할 때 이러한 샘플 페이지가 많이 나열되어 있습니다. 그것들을 제거하는 방법. 이 관련없는 페이지가 내 평가를 손상시키고 있다고 생각합니다.

실제로이 모든 페이지를 지우고 새 사이트로 색인을 생성하기 시작했지만 불가능하다고 읽었습니까? (사이트 맵을 제출했으며 "Fetch as Google"을 사용했습니다.)

답변:


17

괜찮아. 먼저 첫 번째 것들. 404를 고정 된 것으로 표시하지 마십시오 . 실제로 문제가 지속되고 있습니다. Google은 포기하기 전에 404를 여러 번 반환하는 페이지를 가져 와서 가져옵니다. 404 오류는 410 오류가 페이지가 사라 졌다는 일시적인 상황을 나타 내기 때문 입니다. 따라서 404를 수정 된 것으로 표시 할 때마다 실제로 Google에 다시 시도하여 제거 프로세스를 다시 시작하도록 지시합니다.

이 페이지 404를 잠시 동안 기다리면 Google에서 해당 페이지를 찾지 않고 색인에서 페이지를 삭제합니다. 시간이 걸리지 만 410 오류가 발생하지 않는 가장 쉬운 방법입니다. 410 오류는 프로세스를 더 빠르게 만들지 만 410 오류를 나타내는 것이 더 어렵고 404가 기본값으로 더 쉽고 자연스러운 솔루션입니다.

기다렸다가 삭제 된 페이지는 약 30-60 일 후에 사라집니다. Google이 귀하의 페이지를 얼마나 자주 방문하는지에 따라 다릅니다. 시간이 더 걸릴 수 있지만 404가 발견되면 Google은 사이트를 먼저 확인한 다음 404가 몇 개인 지에 따라 사이트를 더 적극적으로 스파이더 링 할 수 있습니다.

실제로 사이트 맵을 사용한다고해서 색인 관련 문제가 해결되는 것은 아닙니다. 검색 엔진의 수명을 단축시켜줍니다. 모든 사이트의 모든 최종 페이지 목록으로 간주되지는 않습니다. 검색 엔진이 사이트 맵을 읽고 사이트 맵에 나열되지 않은 페이지를 계속 찾으면 해당 페이지의 색인을 계속 생성합니다.

이해하기 쉬운 방법 중 하나는 robots.txt 파일에이 페이지를 나열하는 것입니다. 너무 많지 않으면 (할 수있는 일과 robots.txt 파일이 너무 길지 않음을 의미) 더 빠른 해결책입니다. 그렇지 않으면 대기하고 404 오류가 스스로 만료되도록합니다.

마지막 한마디. 너는 괜찮을거야. 정말. 인내심이 있으면 모두 잘 작동합니다.


1
robots.txt에 404 페이지를 추가하면 나쁜 습관처럼 들립니다. 크롤러를 혼란스럽게하고 완전히 불필요한 하우스 키핑을 많이 필요로합니다.
Dorus

@Dorus 전혀 아닙니다. 하나는 다른 것과 아무 관련이 없습니다. robots.txt 파일에 페이지를 추가하면 색인에서 페이지가 매우 빠르게 제거됩니다. 또한 검색 엔진은 파일에 액세스하려고 시도하지 않으므로 404는 없습니다.
closetnoc

1
말씀 드린대로 robots.txt에 추가하면 검색 엔진이 페이지에 액세스하려고 시도하지 않지만 페이지는 여전히 존재합니다. 따라서 언젠가 로봇에서 제거하면 인덱싱이 반환됩니다. 404 또는 410이 작업을 수행하도록하는 것이 좋습니다.

@closetnoc 무슨 뜻 it is harder to present a 410 error인가요?
Evgeniy

@Evgeniy 404 오류는 기본적으로 제공되는 것입니다 (적어도 오래된 IIS). 410 오류는 의도적이어야하며 발생하기 위해 약간의 작업이 필요합니다. 기술적으로 어려운 작업은 아니지만 많은 전문 지식이 필요합니다. 건배!!
closetnoc

8

페이지를 게시하면 Google은이를 잊어 버리지 않습니다. 15 년 전에 페이지를 삭제 한 사이트가 있습니다. Googlebot은 여전히 ​​다시 방문하여 해당 페이지를 확인합니다.

페이지가 검색 엔진에 나타나지 않도록하려면 404 오류가 발생합니다. Googlebot이 다음에 크롤링 한 후 색인에서 페이지를 제거하려면 하루가 걸릴 수 있습니다. 더 빨리 제거하려면 대신 "410 Gone"상태를 반환하십시오. Google은 하루를 기다리지 않고 크롤링 한 직후 410 페이지를 제거합니다. Google은 Matt Cutts의 설명 에 따라 웹 마스터가 직접 발을 쏘지 못하도록 404 페이지를 즉시 제거하지 않습니다 .

404와 함께 401과 403과 같이 생각합니다. 페이지를보고 404를 얻으면 크롤링 시스템에서 24 시간 동안 해당 페이지를 보호 할 것입니다. 일시적인 404, 실제로는 페이지를 찾을 수 없었습니다.

고려할 수있는 또 다른 방법은 리디렉션입니다. 기존 페이지를 대체 페이지로 리디렉션하면 Google 웹 마스터 도구에서 오류로 표시되지 않습니다. 이전 페이지 각각에 새 페이지가있는 경우에만 가능합니다. Google은 홈페이지로의 리디렉션이 해당 보고서에 계속 표시되는 "소프트 404"오류로 간주하므로 모든 테스트 페이지를 홈페이지로 리디렉션해도 도움이되지 않습니다.

웹 마스터 도구에 404 오류가 있어도 문제가되지 않습니다. 사이트에 404 오류가 있으면 사이트가 올바르게 구성되었다는 Googlebot이 표시되므로 도움이 될 수도 있습니다. 다음은 웹 마스터 도구 및 사이트 맵에서 작업하는 Google의 John Mueller 가 웹 마스터 도구에 나타나는 404 오류에 대해 말한 내용입니다 .

도움! 내 사이트에 939 개의 크롤링 오류가 있습니다 !! 1

나는 이런 종류의 질문을 일주일에 여러 번 봅니다. 당신은 혼자가 아닙니다-많은 웹 사이트에 크롤링 오류가 있습니다.

  1. 잘못된 URL의 404 오류는 사이트의 색인 생성이나 순위 에 영향을 미치지 않습니다 . 1 억 또는 1 천만 개가 있는지는 중요하지 않으며 사이트 순위에 영향을주지 않습니다. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. 경우에 따라 크롤링 오류는 웹 사이트 또는 CMS 내의 합법적 인 구조 문제로 인해 발생할 수 있습니다. 당신은 어떻게 말합니까? 크롤링 오류의 출처를 다시 확인하십시오. 사이트, 페이지의 정적 HTML에 링크가 끊어지면 항상 수정해야합니다. (감사 + Martino Mosna )
  3. “분명히 깨진”펑키 URL은 어떻습니까? Google 알고리즘이 사이트와 같은 경우, 예를 들어 자바 스크립트에서 새 URL을 검색하여 더 좋은 콘텐츠를 찾으려고 시도 할 수 있습니다. 이 "URL"을 시도하고 404를 찾으면 훌륭하고 기대됩니다. 우리는 중요한 것을 놓치고 싶지 않습니다 (과도하게 연결된 Googlebot meme을 여기에 삽입하십시오). http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. 웹 마스터 도구에서 크롤링 오류를 수정할 필요가 없습니다. "고정 된 것으로 표시"기능은 진행 상황을 추적하려는 경우에만 도움이됩니다. 웹 검색 파이프 라인의 내용은 변경되지 않으므로 필요하지 않은 경우 무시하십시오. http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. 웹 마스터 도구의 크롤링 오류는 우선 순위별로 나열되며 여러 가지 요소를 기반으로합니다. 크롤링 오류의 첫 페이지가 명확하지 않은 경우 추가 페이지에서 중요한 크롤링 오류를 찾지 못할 수 있습니다. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. 웹 사이트에서 크롤링 오류를 "수정"할 필요는 없습니다. 404를 찾는 것은 정상이며 건강하고 잘 구성된 웹 사이트에서 기대됩니다. 동등한 새 URL이있는 경우 해당 URL로 리디렉션하는 것이 좋습니다. 그렇지 않으면 가짜 콘텐츠를 만들거나 홈페이지로 리디렉션해서는 안되며 robots.txt에서 URL을 허용해서는 안됩니다. 이러한 모든 것들 때문에 사이트 구조를 인식하고 처리하기가 더 어려워집니다. 우리는 이러한“소프트 404”오류를 부릅니다. http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. 분명히-크롤링 오류가 관심있는 URL (예 : Sitemap 파일의 URL)에 표시되는 경우 즉시 조치를 취해야합니다. Googlebot이 중요한 URL을 크롤링 할 수없는 경우 Google 검색 결과에서 URL이 삭제되어 사용자가 해당 URL에 액세스하지 못할 수 있습니다.

1
그건 내 경험이 아니 었어 Google은 새로운 색인을 원하고 상당히 빠르게 페이지를 삭제합니다. 내가 본 내용은 귀하가 설명 한 것과 비슷해 보이고 과거에 Google API를 사용하는 다른 사이트가 데이터를 새로 고치지 않고 이전 작업을 인용합니다. 이들은 스팸 / 정크 사이트 일 수 있으며 이러한 인용은 표시 / 유지 / 사라짐 / 다시 나타날 수 있습니다. 구글 API가 있기 때문에 나는이에 대한 참조 주요 이유는 예전 보다는 난잡한 및 최신 데이터가 과거에 스팸 한 특히 구하기 매우 어렵 기 때문에, 따라서 스팸 데이터가 훨씬 나이가 더 이상 없습니다.
closetnoc

1
Googlebot에는 "지하실에서 URL 상자를 찾았습니다"라는 크롤링 모드가 있습니다. 이 크롤링 모드에서는 사이트에서 수천 개의 URL을 연속으로 크롤링 할 수 있으며, 몇 년 동안 사용한 적이 없습니다. 스크래퍼 사이트에서도 URL에 일반적으로 인바운드 링크가 없습니다. 길이 순서대로 크롤링되고 더 짧은 URL이 먼저 크롤링됩니다.
Stephen Ostermiller

사실 일 수도 있습니다. 구글은 분명히 큰 데이터입니다. 큰 데이터베이스에는 노이즈가 있습니다. 불가피하다. 그것은 당신이 겪고있는 것일 수 있습니다. 다양한 데이터베이스가 조정될 수 있습니다. 말이 되네요 그러나 나는 또한 정크 링크가 오래된 링크와 오래된 인용으로 2 시간 동안 만 나타날 수 있다고 경고합니다. 나는 이것을 매일 본다. 그들은 주로 러시아와 폴란드에 있습니다. 이 사이트는 로컬 검색 엔진을 게임하는 데 사용되지만 모든 사이트에 대한 트래픽에 영향을 미치며 Google이 선택할 수 있습니다. 매일 데이터베이스에 약 12 ​​개가 있습니다. 일반적으로 12 개 사이트 중 1 개 사이트 만 기간 동안 유지됩니다.
closetnoc

939 오류는 무엇입니까?
Greg Nickoloff

939는 오류 수이며 오류 유형이 아닙니다.
Stephen Ostermiller

5

Google은이 페이지를 오랫동안 계속 크롤링하려고합니다. 웹 마스터는 실수를하거나 어떤 이유로 든 사이트를 사용할 수 없게되므로 Google은 404의 첫 징후로 콘텐츠를 삭제하지 않습니다.

또는 대신 410 Gone을 제공 할 수 있습니다. 이것은 페이지가 문자 그대로 "없어지고 다시 오지 않는다"는 훨씬 더 강한 신호입니다. 그러면 Google에서 SERP에서 페이지를 더 빨리 제거하라는 메시지가 표시 될 수 있습니다.

"해결 된 것으로 표시"하도록 설정했지만 일부 페이지는 여전히 404로 돌아옵니다.

페이지를 다시 넣으면 "해결"됩니다. 해결 된 것으로 표시하고 페이지가 존재하지 않으면 크롤링 오류가 다시 발생합니다. 페이지가 존재하지 않으면 그대로 두십시오.

정품 404는 검색 순위에 영향을 미치지 않습니다. GWT의 404 보고서는 주로 귀하의 이익을위한 것이므로 페이지를 찾을 수없는 페이지를 찾을 수없는 경우를 확인할 수 있습니다!

SERP의 관련이없는 페이지는 아마도 사용자에게 약간의 성가심 일지 모르지만, lorem ipsum 을 찾기 위해 무엇을 찾고 있습니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.