Google은 403 페이지를 어떻게 크롤링 했습니까?

학교 폴더의 디렉토리에 몇 개의 개인 파일이 있습니다. myschool.edu/myusername/myfolder로 이동하면 파일이 존재하지만 myschool.edu/myusername/myfolder/myfile.html을 통해 파일 자체에 액세스하려고하면 403 오류가 반환됩니다.

그러나 Google은 어떻게 든 개인 파일의 내용을 가져 와서 캐시에 저장했습니다! 이것이 어떻게 가능한지? [그 이후로 해당 파일을 제거 했으므로 Google에서이 작업을 어떻게 수행했는지 궁금합니다.]

web-crawlers security googlebot

— grautur
소스

이것은 웹 마스터에 속해 있습니다

— RobertPitt

가장 가능성이 높은 이유는 페이지가 403 헤더를 반환하지 않기 때문입니다.

Firefox 또는 Chrome에서 웹 개발자 도구 모음을 사용하여 확인할 수 있습니다. 이 도구는 "정보"-> "응답 헤더보기"에 있습니다.

또한 오류 페이지를 만드는 방법은 다음과 같습니다.

더미 오류 페이지를 만듭니다. 403.php 라고 합시다 .
실제 오류 페이지를 만듭니다. 예를 들어 error403.php 입니다.
더미 오류 페이지에서 다음 코드를 넣습니다. <?php header("Location: /error403.php",TRUE,301); ?>
내 .htaccess에서 다음을 넣습니다.

Options -Indexes

ErrorDocument 403 /403.php

이렇게하면 모든 리디렉션이 올바른 방식으로 추가되고 오류 페이지에서 주스를 얻습니다.

웹 사이트에 GET 요청을 사용하는 검색 엔진이있는 경우 실제로 매우 멋진 방법으로 확장 할 수 있습니다.

— 버질 펜 코프
소스