사이트가 해킹당했습니다. Google에서 +로 시작하는 모든 URL을 삭제해야합니까? robots.txt를 사용 하시겠습니까?


15

robots.txtGooglebot이 색인 생성을 중지하기 위해 이러한 URL을 차단하는 방법을 알려주시겠습니까 ?

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

내 웹 사이트가 해킹되어 현재 복구되었지만 해커가 Google에서 5000 개의 URL을 색인 생성했으며 위의 링크와 같이 시작하는 임의 생성 링크에서 오류 404가 발생합니다 /+.

Google 웹 마스터 도구에서이 URL을 수동으로 제거하는 것 외에 다른 빠른 방법이 있는지 궁금합니다.

부호로 robots.txt시작하는 URL 로이를 차단할 수 있습니까 +?


2
+URL 경로에는 (플러스)에 특별한 것이 없으며 다른 문자와 같습니다.
MrWhite

Apache (.htaccess)를 robots.txt가 로봇의 액세스를 금지하는 파일 또는 디렉토리로 리디렉션 할 수 있습니다.
Mawg는 Monica를 복원

@Mawg 그게 무슨 요점입니까?
MrWhite

로봇이 잘 동작하도록하려면?
Mawg는 모니카 복원

답변:


30

내 웹 사이트가 해킹되어 현재 복구되었지만 해커가 Google에서 5000 개의 URL을 색인 생성했으며 오류 404가 발생했습니다.

robots.txt이러한 URL을 검색 엔진 (예 : Google)에서 삭제하려면 404를 사용하는 것이 좋습니다 . 크롤링을 차단하면 URL의 색인이 여전히 유지 될 수 있습니다. ( 인덱싱이 아닌 크롤링robots.txt주로 차단 합니다 .)

이러한 URL의 색인을 해제하려면 "일반적으로"404 Not Found "대신"410 Gone "을 사용하십시오. 루트 .htaccess파일 에서 mod_rewrite (Apache)를 사용하여 다음과 같은 작업을 수행 할 수 있습니다.

RewriteEngine On
RewriteRule ^\+ - [G]

14

두 번째 질문에 대답하겠습니다.

Google 웹 마스터 도구에서 이러한 URL을 수동으로 제거하는 것 외에 다른 빠른 방법이 있는지 궁금합니다.

https://developers.google.com/webmasters/hacked/docs/clean_site

Google은 Google 검색 콘솔 (새로운 웹 마스터 도구 이름)을 통한 삭제가 가장 빠르다고 명시 적으로 밝힙니다.

해커가 완전히 사용자가 볼 수있는 완전히 새로운 URL을 만든 경우 Search Console의 URL 제거 기능을 사용하여 이러한 페이지를 Google 검색 결과에서 더 빨리 제거 할 수 있습니다. 이것은 완전히 선택적 단계입니다. 페이지를 삭제 한 다음 404 상태 코드를 반환하도록 서버를 구성하면 시간이 지남에 따라 페이지가 자연스럽게 Google 색인에서 떨어집니다.

그러나 일부 경우에는 이것이 불가능하다는 것을 이해합니다.

URL 제거 사용 결정은 새로 생성 된 원치 않는 페이지 수 (URL 제거에 너무 많은 페이지가 포함되어 번거로울 수 있음) 및 이러한 페이지로 인해 사용자가 발생할 수있는 잠재적 손상에 따라 달라질 수 있습니다. URL 제거를 통해 제출 된 페이지가 검색 결과에 나타나지 않도록하려면 페이지가 원치 않거나 제거 된 URL에 대해 404 파일을 찾을 수 없음 응답을 반환하도록 구성되어 있는지 확인하십시오.

따라서 robots.txt에서 이러한 페이지를 차단할 수는 있지만 Google에서 설명한대로 수정 단계를 수행하지는 않습니다.


4
User-Agent: *  
Disallow: /+

당신이 원하는 것을해야합니다. 로봇은로 시작하는 모든 URL을 요청하지 않도록 지시합니다 +.


2

robots.txt를 정말로 사용하려면 질문에 대한 간단한 답변이 될 것입니다. 또한 robots.txt의 사양을 읽을 수있는 링크가 포함되어 있습니다.

User-agent: *
Disallow: /+

robots.txt 사양에 대해 알아보기

그러나 다른 대안은 .htaccess를 사용하여 다시 작성 규칙을 작성하여 (아파치 등을 사용하는 경우) 규칙을 잡아 Google에 더 나은 리턴 HTTP 코드를 알리거나 트래픽을 다른 페이지로 리디렉션하는 것입니다.


2
*URL 경로 끝에 (별표) 가 필요하지 않습니다 . 가장 큰 거미 호환성을 위해서는 제거해야합니다. robots.txt는 접두사와 이미 일치하므로 와일드 카드를 지원하는 봇 /+*과 동일하며 /+와일드 카드를 지원하지 않는 봇의 /+*경우 전혀 일치하지 않습니다.
MrWhite

당신은 옳습니다. 방금 Googlebot에 대한 그의 질문에 기초하여 썼습니다. 여러 봇에 대한 더 나은 호환성을 반영하도록 편집했습니다.
davidbl
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.