Google 캐시에서 수천 개의 URL을 제거하는 방법은 무엇입니까?


13

Google은 내 웹 사이트에서 공개하지 않아야하는 수천 개의 PDF를 캐시했습니다. 헤더를 업데이트했지만 기존 빠른보기 캐시를 제거해야합니다.

Google 웹 마스터 도구를 사용하면 파일을 하나씩 제거 할 수 있지만 제거 할 파일의 수를 감안할 때 실용적이지 않습니다.

누구나 Google 캐시에서 PDF를 일괄 제거하는 방법을 알고 있습니까? 이상적으로 "site : mysite.com * .pdf"와 일치하는 모든 항목을 제거하는 방법을 원합니다


3
빠른 Google 검색은 Google API를 사용하여 일괄 제거 할 수 없음을 나타내므로 링크를 하나씩 제거하는 자체 스크립트를 작성해야합니다.

답변:


9

이미 단일 URL 제거 를 요청하는 방법을 이미 알고있는 것 같습니다 . 해당 프로세스의 두 번째 단계 에서는 파일 URL이 특정 방식으로 예측 가능한 경우 전체 디렉토리 제거 를 요청할 수도 있습니다 . (만약 당신이 수천 개의 PDF 를 가지고 있다면 , 그것들이 적어도 다소 체계적으로 구성되기를 바랍니다.) 그렇지 않다면 불행히도 옵션이 거의 없습니다.


2

최근에 내 사이트에 수천 개의 가짜 페이지를 추가 한 해킹이있었습니다.

수정 된 사이트 맵을 Google 검색 콘솔 (이전의 웹 마스터 도구)에 제출하고 모든 링크를 410으로 전환했지만 Google은 여전히 ​​대부분 색인을 생성했습니다.

마스터 도구-대량 URL 제거 Chrome 확장 프로그램 을 사용하여 제거 할 URL을 자동으로 제출했습니다. 기본적으로 URL 목록을 가져 와서 한 번에 하나씩 제출하는 스크립트입니다. 모두 제출하는 데 몇 시간이 걸리지 만 적어도 직접 할 필요는 없습니다. 사용 방법에 대한 기사는 다음과 같습니다 .

Search Console에서 직접 데이터를 다운로드하여 Google이 색인을 생성하는 URL 목록을 얻을 수 있습니다. 상태> 색인 범위로 이동하여 유효한 결과를 선택한 다음 아래로 스크롤하십시오. Google이 사이트 맵에없는 수많은 URL을 색인 생성했음을 알 수 있습니다. 처음 1000 개의 결과를 다운로드 할 수 있습니다. 처음 1,000 개뿐만 아니라 Excel의 API 호출과 관련된 모든 방법을 찾을 수있는 방법은 분명히 있습니다. 그들은 천천히 지수에서 떨어지면서 천 개 사이에 며칠을 기다렸습니다.

Google 색인 범위 스냅 샷

다른 경로는 WP 플러그인이 사이트 맵을 만든 다음 PDF 또는 대상을 필터링하는 것입니다. 여기에서 약간의 수동 복사 / 붙여 넣기 / 삭제를 수행해야 할 것입니다. 안전을 위해 약 2,700 개의 스팸 URL 목록을 천천히 스크롤하여 합법적 인 URL을 삭제했습니다. 약 20 분 밖에 걸리지 않았습니다.

스팸과 같은 것을 영구적으로 공격하지 않고 프리미엄 리소스를 난독 처리하려는 경우 로봇 파일과 같은 리소스를 인덱싱하지 않도록 다른 방법을 사용해야합니다. 그러나 Google이 듣지 못했거나 공을 떨어 뜨린 경우 적어도 며칠 만에 문제를 해결하고 색인에서 제거 할 수 있습니다.

특정 상황에서 Google에 왜 타임머신 버튼이 없거나 실행 취소 또는 재설정하지 않는지 궁금합니다. 아이디어는 며칠 전에 사이트가 해킹 당했다는 것을 Google에 알릴 수 있지만 Google은이 사이트를 수리 했으므로 지난 x 일 동안 크롤링 및 색인 생성을 취소합니다. 그러나 그것은 너무 쉽다.


1

파일이 "공개되지 않아야합니다"이면 공용 인터넷에 있어야합니다. robots.txt 및 기타 방법을 통해 Google 목록에서 파일을 제거 할 수 있지만 파일이 여전히 있으면 누구나 다운로드 할 수 있습니다.

일종의 인증 뒤에 유지해야합니다. 예를 들어, 공용 웹 디렉토리에서 파일을 이동하고 사용자가 먼저 유효한지 확인하는 스크립트에서 파일을 제공하십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.