Google은 403 페이지를 어떻게 크롤링 했습니까?


10

학교 폴더의 디렉토리에 몇 개의 개인 파일이 있습니다. myschool.edu/myusername/myfolder로 이동하면 파일이 존재하지만 myschool.edu/myusername/myfolder/myfile.html을 통해 파일 자체에 액세스하려고하면 403 오류가 반환됩니다.

그러나 Google은 어떻게 든 개인 파일의 내용을 가져 와서 캐시에 저장했습니다! 이것이 어떻게 가능한지? [그 이후로 해당 파일을 제거 했으므로 Google에서이 작업을 어떻게 수행했는지 궁금합니다.]


2
이것은 웹 마스터에 속해 있습니다
RobertPitt

답변:


5

가장 가능성이 높은 이유는 페이지가 403 헤더를 반환하지 않기 때문입니다.

Firefox 또는 Chrome에서 웹 개발자 도구 모음을 사용하여 확인할 수 있습니다. 이 도구는 "정보"-> "응답 헤더보기"에 있습니다.

또한 오류 페이지를 만드는 방법은 다음과 같습니다.

  1. 더미 오류 페이지를 만듭니다. 403.php 라고 합시다 .
  2. 실제 오류 페이지를 만듭니다. 예를 들어 error403.php 입니다.
  3. 더미 오류 페이지에서 다음 코드를 넣습니다. <?php header("Location: /error403.php",TRUE,301); ?>
  4. 내 .htaccess에서 다음을 넣습니다.

    Options -Indexes

    ErrorDocument 403 /403.php

이렇게하면 모든 리디렉션이 올바른 방식으로 추가되고 오류 페이지에서 주스를 얻습니다.

웹 사이트에 GET 요청을 사용하는 검색 엔진이있는 경우 실제로 매우 멋진 방법으로 확장 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.