Google은 robots.txt를 캐시합니까?


17

일주일 전에 내 사이트 중 하나에 robots.txt 파일을 추가했는데 Googlebot이 특정 URL을 가져 오지 못했을 것입니다. 그러나 이번 주말에 Googlebot이 정확한 URL을로드하는 것을 볼 수 있습니다.

Google은 robots.txt를 캐시합니까? 그렇다면 캐시 해야합니까?

답변:


13

Google 검색 콘솔 (이전의 Google 웹 마스터 도구)에 사이트를 등록하는 것이 좋습니다 . 사이트 구성에는 robots.txt 가 마지막으로 다운로드 된 시기를 알려주는 크롤러 액세스 섹션이 있습니다 . 이 도구는 또한 크롤러가 사이트를 보는 방법, 차단되거나 작동하지 않는 항목 및 Google의 검색어에 표시되는 위치에 대한 자세한 정보를 제공합니다.

내가 알 수 있듯이 Google은 robots.txt를 자주 다운로드합니다 . Google 검색 콘솔 사이트를 사용하면 색인에서 URL을 구체적으로 제거 할 수 있으므로 현재 차단중인 URL을 제거 할 수 있습니다.


2
웹 마스터 도구를 확인했습니다. robots.txt 파일이 유효하며 가장 최근에 Googlebot이 해당 페이지를 방문하기 17 시간 전에 가져 왔습니다. Google 네트워크를 통한 전파 문제인 것 같습니다. 결국 모든 Googlebot 서버가 robots.txt 지침을 따라 잡습니다.
Quog

Google 봇은 업데이트가 검색 콘솔에보고되는 것처럼 robots.txt를 사용하지 않습니다. 업데이트 한 지 4 주가 지났지 만 Google 봇은 여전히 ​​잘못된 robots.txt를 사용하여 트래픽과 순위를 파괴합니다.
Corporate Geek

3

인내. robots.txt에서 meta noindex, nofollow로 변경했습니다. 메타 작업을 수행하려면 robots.txt의 차단 된 주소를 먼저 차단 해제해야합니다.

나는 robots.txt를 모두 삭제하고 구글의 웹 마스터에서 삭제하여 잔인하게했습니다.

웹 마스터 도구 (차단 된 페이지 수)에서 볼 수있는 robots.txt 제거 프로세스는 완료하는 데 10 주가 걸렸으며이 중 대부분은 지난 2 주 동안 Google에 의해서만 제거되었습니다.


나는 당신에게 동의하는 경향이 있습니다. 실수로 robots.txt 파일을 잘못 업데이트했습니다. Google은이를 캐시했으며 실수를 수정 한 후 4 주 후에이를 사용하여 새로운 robots.txt로 대체했습니다. Google 웹 마스터 도구에서 수동으로 새로 고침 요청을 제출했지만 아무것도 없습니다. 트래픽과 순위를 잃어 버렸기 때문에 이것은 나쁘다. :(
Corporate Geek

2

예, Google은 분명히 robots.txt 를 어느 정도 캐시 합니다. 페이지를 볼 때마다 다운로드하지는 않습니다. 캐시하는 시간은 모르겠습니다. 그러나 Expires 헤더가 길면 Googlebot이 파일을 확인하는 데 훨씬 더 오래 걸릴 수 있습니다.

다른 문제는 파일이 잘못 구성된 것일 수 있습니다. danivovich가 제안하는 웹 마스터 도구에는 robots.txt 검사기가 있습니다. 차단 된 페이지 유형과 올바른 페이지 유형을 알려줍니다.


이 답변에 대한 의견 참조 webmasters.stackexchange.com/questions/2272/…
Quog

2
@Quog : 최근 비디오보기 : youtube.com/watch?v=I2giR-WKUfY Matt Cutts는 robots.txt가 하루에 한 번 또는 약 100 개의 요청마다 다운로드 될 것을 제안합니다.
DisgruntledGoat

2

Google 문서에 따르면 일반적으로 하루 동안 robots.txt 를 캐시 하지만 새로 고칠 때 오류가 발생하면 더 오래 사용할 수 있습니다.

robots.txt 요청은 일반적으로 최대 하루 동안 캐시되지만 캐시 된 버전을 새로 고칠 수없는 경우 (예 : 시간 초과 또는 5xx 오류로 인해) 더 오래 캐시 될 수 있습니다. 캐시 된 응답은 다른 크롤러가 공유 할 수 있습니다. Google은 max-age Cache-Control HTTP 헤더에 따라 캐시 수명을 늘리거나 줄일 수 있습니다.



1

내가 액세스 할 수있는 사용자 캐시에서 볼 수 있듯이 robots.txt 파일 의 URL을 Google 검색에 입력 한 다음 작은 녹색 드롭 다운 화살표를 클릭하고 '캐시'를 클릭하면됩니다 (아래 이미지 참조). 그러면 Google 서버에서 해당 페이지의 최신 버전이 제공됩니다.

여기에 이미지 설명을 입력하십시오


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.