Google 웹 마스터 도구에서 로봇이 사이트 맵에 대한 액세스를 차단하고 있다고 알려줍니다.


11

이것은 내 robots.txt입니다 .

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.example.org/sitemap.xml.gz

그러나 Google 웹 마스터 도구는 로봇이 사이트 맵에 대한 액세스를 차단하고 있다고 말합니다.

사이트 맵에 액세스하는 중 오류가 발생했습니다. Sitemap이 Google 가이드 라인을 따르고 제공 한 위치에서 액세스 한 다음 robots.txt로 URL 을 다시 제출할 수 있는지 확인하십시오 .

Google 웹 마스터 도구가 robots.txt를 캐시 하지만 파일이 36 시간 전에 업데이트되었습니다.

최신 정보:

테스트 사이트 맵을 종료해도 Google에서 새 사이트 맵을 가져 오지 않습니다. 제출 사이트 맵 만 가능했습니다. (BTW, 현재 사이트 맵을 붙여 넣지 않으면 '테스트 사이트 맵'의 요점을 볼 수 없습니다. 테스트 전에 입력하도록 요청한 주소에서 사이트 맵의 새로운 사본을 가져 오지 않습니다. 다른 날에 대한 질문.)

테스트 대신 새 사이트 맵을 제출 한 후 상황이 변경되었습니다. 이제 " robots.txt에 의해 URL이 차단되었습니다 . 사이트 맵에 robots.txt에 의해 차단 된 URL이 포함되어 있습니다 ." 44 개 URL 사이트 맵에는 정확히 44 개의 URL이 있습니다. 이것은 구글이 새로운 사이트 맵을 사용하지만 여전히 (출입 금지 모든 것을 유지하는) 기존의 로봇 규칙에 의해 진행되지 않음을 의미 44 개의 URL 없음에 /wp-admin//wp-includes/있기 때문에, 어쨌든 종류 불가능의 인 ( robots.txt에가 에 내장되어 있습니다 사이트 맵을 생성하는 동일한 플러그인에 의한 비행).

업데이트 2 :

Google 검색 결과 페이지에서 홈페이지에 대한 설명은 "이 사이트의 robots.txt로 인해이 결과에 대한 설명을 볼 수 없습니다 . 자세히 알아보십시오 "라는 내용이 나빠집니다 . 다른 모든 페이지에는 자세한 설명이 있습니다. 홈페이지의 robots.txt 또는 robots 메타 차단 색인 이 없습니다 .

나는 붙어있다.


Google 웹 마스터 도구> 상태> 차단 된 URL에서 robots.txt가 사이트 맵 URL (또는 테스트하려는 다른 URL)을 차단하는지 즉시 테스트 할 수 있습니다. 현재 robots.txt가 사이트 맵을 차단해야하는 것처럼 보이지 않지만 이것이 업데이트되었다고 말합니다. robots.txt 파일 의 이전 버전에서이를 차단 했습니까 ?
MrWhite

1
예, 이전 버전은 차단되었습니다. 구글이 캐시를 업데이트하지 않은 것 같다 ...
Gaia

나는 정확히 같은 문제가 있습니다. 내 robots.txt 캐시는 올해 4 월 23 일부터 오늘은 4 월 25 일이며 캐시는 여전히 오래되었습니다. 기다릴 시간이 없습니다. 지금 Google 사이트 (비즈니스 사이트)를 색인으로 생성하려면 googleboot가 필요하지만 아무 것도 할 수없는 것 같습니다. 너무 실망 스러워요!

답변:


8

Google이 아직 robots.txt 파일의 캐시를 업데이트하지 않은 것 같습니다. 현재 robots.txt 파일 (위)은 사이트 맵 URL을 차단해야하는 것처럼 보이지 않습니다.

구글이 캐시를 업데이트하지 않았다고 생각합니다.

추측 할 필요가 없습니다. "건강"> "차단 된 URL"아래의 Google 웹 마스터 도구 (GWT)에서 robots.txt가 마지막으로 다운로드 된 시간과 성공 여부를 확인할 수 있습니다. 또한 robots.txt 파일에 의해 차단 된 URL 수를 알려줍니다.

Google 웹 마스터 도구의 robots.txt 참조

내 의견에서 언급했듯이 GWT에는 robots.txt 검사기 도구 ( "건강"> "차단 된 URL")가 있습니다. 따라서 실제 파일을 변경하지 않고 robots.txt의 변경 사항을 즉시 테스트 할 수 있습니다. 상단 텍스트 영역에 robots.txt 파일을 지정하고 하단 텍스트 영역에 테스트하려는 URL을 지정하면 차단 여부를 알려줍니다.


robots.txt 캐싱

robots.txt 요청은 일반적으로 최대 하루 동안 캐시되지만 캐시 된 버전을 새로 고칠 수없는 상황 (예 : 시간 초과 또는 5xx 오류)으로 인해 더 오래 캐시 될 수 있습니다. 캐시 된 응답은 다른 크롤러가 공유 할 수 있습니다. Google은 max-age Cache-Control HTTP 헤더에 따라 캐시 수명을 늘리거나 줄일 수 있습니다.

출처 : Google 개발자-Robots.txt 사양


24 시간 후에도 여전히 그럴 수 있습니까 ??
Gaia

웹 마스터 도구에보고 된 "다운로드"날짜는 무엇입니까? 그것은 여전히 사건 인지 알려줄 것 입니다. 위의 스크린 샷에서 볼 수 있듯이 (내 사이트 중 하나에서) robots.txt 파일은 "2012 년 9 월 3 일"에 마지막으로 다운로드되었습니다 (3 일 전). 그러나 필자의 경우 아무것도 변경되지 않았으므로 파일을 다시 다운로드 할 필요가 없습니다 (Last-Modified 헤더는 동일해야 함). Google이 robots.txt 파일을 가져 오는 빈도는 서버에서 설정 한 Expires 및 Last-Modified 헤더에 따라 다릅니다.
MrWhite

22 시간 전에 다운로드되었으며 헤더는 +24 시간으로 만료됩니다. 몇 시간 후에 다시 시도하여 해결해야합니다!
Gaia

그렇게하지 않았습니다. 구글은 새로운 사이트 맵을 사용하지만 여전히 (모든 출입 금지를 유지하는) 기존의 robots.txt 규칙에 의해 것입니다
가이아

"그렇지 않았다"-Google이 아직 robots.txt 파일의 캐시를 업데이트하지 않았습니까? 36 시간 전에 파일을 변경했는데 22 시간 전에 다운로드 된 것으로보고 되었습니까?! robots.txt 파일에 대한 링크를 클릭하면 무엇을 볼 수 있습니까?
MrWhite

2

설치 WP 중에 검색 엔진이나 동일한 옵션으로 추적하지 않기 때문에 사이트와 동일한 문제가 발생했습니다.

이 문제를 해결하려면

  1. 웹 마스터 도구 크롤링으로 이동하여 URL 제거 및 www.example.com/robots.txt이 옵션을 사용 하여 제출 -> 내용 변경을 위해 캐시에서 제거 또는 ...
  2. 잠깐만
  3. 사이트 맵 URL을 다시 제출하십시오.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.