Google은 robots.txt를 캐시합니까?

17

일주일 전에 내 사이트 중 하나에 robots.txt 파일을 추가했는데 Googlebot이 특정 URL을 가져 오지 못했을 것입니다. 그러나 이번 주말에 Googlebot이 정확한 URL을로드하는 것을 볼 수 있습니다.

Google은 robots.txt를 캐시합니까? 그렇다면 캐시 해야합니까?

googlebot robots.txt google-cache

— 인용구
소스

13

Google 검색 콘솔 (이전의 Google 웹 마스터 도구)에 사이트를 등록하는 것이 좋습니다 . 사이트 구성에는 robots.txt 가 마지막으로 다운로드 된 시기를 알려주는 크롤러 액세스 섹션이 있습니다 . 이 도구는 또한 크롤러가 사이트를 보는 방법, 차단되거나 작동하지 않는 항목 및 Google의 검색어에 표시되는 위치에 대한 자세한 정보를 제공합니다.

내가 알 수 있듯이 Google은 robots.txt를 자주 다운로드합니다 . Google 검색 콘솔 사이트를 사용하면 색인에서 URL을 구체적으로 제거 할 수 있으므로 현재 차단중인 URL을 제거 할 수 있습니다.

— 다니 보비치
소스

2

웹 마스터 도구를 확인했습니다. robots.txt 파일이 유효하며 가장 최근에 Googlebot이 해당 페이지를 방문하기 17 시간 전에 가져 왔습니다. Google 네트워크를 통한 전파 문제인 것 같습니다. 결국 모든 Googlebot 서버가 robots.txt 지침을 따라 잡습니다.

— Quog

Google 봇은 업데이트가 검색 콘솔에보고되는 것처럼 robots.txt를 사용하지 않습니다. 업데이트 한 지 4 주가 지났지 만 Google 봇은 여전히 잘못된 robots.txt를 사용하여 트래픽과 순위를 파괴합니다.

— Corporate Geek

3

인내. robots.txt에서 meta noindex, nofollow로 변경했습니다. 메타 작업을 수행하려면 robots.txt의 차단 된 주소를 먼저 차단 해제해야합니다.

나는 robots.txt를 모두 삭제하고 구글의 웹 마스터에서 삭제하여 잔인하게했습니다.

웹 마스터 도구 (차단 된 페이지 수)에서 볼 수있는 robots.txt 제거 프로세스는 완료하는 데 10 주가 걸렸으며이 중 대부분은 지난 2 주 동안 Google에 의해서만 제거되었습니다.

— 아랄 드
소스

나는 당신에게 동의하는 경향이 있습니다. 실수로 robots.txt 파일을 잘못 업데이트했습니다. Google은이를 캐시했으며 실수를 수정 한 후 4 주 후에이를 사용하여 새로운 robots.txt로 대체했습니다. Google 웹 마스터 도구에서 수동으로 새로 고침 요청을 제출했지만 아무것도 없습니다. 트래픽과 순위를 잃어 버렸기 때문에 이것은 나쁘다. :(

— Corporate Geek

2

예, Google은 분명히 robots.txt 를 어느 정도 캐시 합니다. 페이지를 볼 때마다 다운로드하지는 않습니다. 캐시하는 시간은 모르겠습니다. 그러나 Expires 헤더가 길면 Googlebot이 파일을 확인하는 데 훨씬 더 오래 걸릴 수 있습니다.

다른 문제는 파일이 잘못 구성된 것일 수 있습니다. danivovich가 제안하는 웹 마스터 도구에는 robots.txt 검사기가 있습니다. 차단 된 페이지 유형과 올바른 페이지 유형을 알려줍니다.

— 불만을 품은 염소
소스

이 답변에 대한 의견 참조 webmasters.stackexchange.com/questions/2272/…

— Quog

2

@Quog : 최근 비디오보기 : youtube.com/watch?v=I2giR-WKUfY Matt Cutts는 robots.txt가 하루에 한 번 또는 약 100 개의 요청마다 다운로드 될 것을 제안합니다.

— DisgruntledGoat

2

Google 문서에 따르면 일반적으로 하루 동안 robots.txt 를 캐시 하지만 새로 고칠 때 오류가 발생하면 더 오래 사용할 수 있습니다.

robots.txt 요청은 일반적으로 최대 하루 동안 캐시되지만 캐시 된 버전을 새로 고칠 수없는 경우 (예 : 시간 초과 또는 5xx 오류로 인해) 더 오래 캐시 될 수 있습니다. 캐시 된 응답은 다른 크롤러가 공유 할 수 있습니다. Google은 max-age Cache-Control HTTP 헤더에 따라 캐시 수명을 늘리거나 줄일 수 있습니다.

— 스티븐 오스터 밀러
소스

1

예. 그들은 일반적으로 하루에 한 번 업데이트한다고 말하지만 일부 사람들은 특정 페이지 방문 횟수 (100?) 후에 확인하여 더 많은 사이트를 더 자주 확인한다고 제안했습니다.

/webmasters//a/29946 및 @DisgruntedGoat가 http://youtube.com/watch?v=I2giR-WKUfY 위에서 공유 한 비디오를 참조 하십시오 .

— 스터드
소스

1

내가 액세스 할 수있는 사용자 캐시에서 볼 수 있듯이 robots.txt 파일 의 URL을 Google 검색에 입력 한 다음 작은 녹색 드롭 다운 화살표를 클릭하고 '캐시'를 클릭하면됩니다 (아래 이미지 참조). 그러면 Google 서버에서 해당 페이지의 최신 버전이 제공됩니다.

여기에 이미지 설명을 입력하십시오

— 샘
소스

-2

Google의 URL 삭제 도구를 사용하여 삭제를 요청할 수 있습니다 .

— 고자시 소우 자
소스

이것은 질문에 대답하지 않습니다.

— MrWhite

왜 대답하지 않습니까?

— KOZASHI SOUZA 1

질문은 구체적으로 robots.txt, URL 캐싱 및 크롤링 에 관한 것 입니다. 이것의 결과 중 하나는 URL이 색인화되지 않았지만 문제가 아닙니다. (Google의 URL 제거 도구는 또한 "임시"

— 수정일 뿐이며,