Google 검색 결과에 robots.txt에서 허용되지 않는 페이지가 포함되는 이유는 무엇입니까?

18

내 사이트에 검색 엔진을 멀리하려는 일부 페이지가 있으므로 robots.txt다음과 같이 파일 에서 허용하지 않았습니다 .

User-Agent: *
Disallow: /email

그러나 최근 Google은 때때로 검색 결과에서 해당 페이지에 대한 링크를 여전히 반환한다는 것을 알았습니다. 왜 이런 일이 발생하며 어떻게 막을 수 있습니까?

배경:

몇 년 전, 친척이 참여한 클럽을위한 간단한 웹 사이트를 만들었습니다. 그들은 자신의 페이지에 전자 메일 링크를 갖고 싶어서 전자 메일 주소가 너무 많아지지 않도록 노력했습니다. 스팸 mailto:링크 , 직접 링크 를 사용하는 대신 해당 링크 가 내 사이트에서 실행 되는 간단한 리디렉터 / 주소 하베스터 트랩 스크립트를 가리 키도록했습니다 . 이 스크립트는 실제 mailto:URL 로의 301 경로 재 지정 또는 의심스러운 액세스 패턴을 발견 한 경우 많은 임의의 가짜 전자 우편 주소가 포함 된 페이지와 더 많은 해당 페이지에 대한 링크를 리턴합니다 . 합법적 인 검색 봇을 함정에서 멀리 유지하려면 위의 robots.txt규칙을 설정하여 합법적 리디렉터 링크 및 트랩 페이지의 전체 공간을 허용하지 않습니다.

그러나 최근에 클럽 회원 중 한 명이 Google에서 자신의 이름을 검색했으며 첫 페이지의 결과 중 하나가 전자 메일 주소로 구성된 제목과 함께 리디렉터 스크립트에 대한 링크 일 때 매우 놀랐습니다. 하여 내 이름입니다. 물론, 그들은 즉시 이메일을 보냈고 Google 색인에서 주소를 가져 오는 방법을 알고 싶었습니다. Google이 robots.txt규칙 에 위배되는 것으로 보이는 URL을 전혀 색인하지 않을지 몰랐기 때문에 매우 놀랐습니다 .

Google에 삭제 요청을 제출했지만 제대로 작동 한 것 같습니다. Google이 왜 그런지를 우회하는 이유와 robots.txt허용되지 않는 페이지가 표시되지 않도록 하는 방법을 알고 싶습니다. 검색 결과.

추신. 실제로이 질문을 준비하는 동안 아래에 게시 할 가능한 설명과 해결책을 찾았지만 다른 사람이 같은 문제가있을 수 있으므로 어쨌든 물어볼 것이라고 생각했습니다 . 자신의 답변을 자유롭게 게시하십시오. 또한 다른 검색 엔진도이 기능을 수행하는지, 동일한 솔루션이 작동하는지 알고 싶습니다.

google-search robots.txt

— 일 마리 카로 넨
소스

1

" Google이 내 robots.txt를 우회 하는 방법 "이미 알고있는 것 같습니다 (또는 처음에는 사이트를 어떻게 설정할 수 있었는지). robots.txt파일은 다른 사람의 차도 옆에 작은 "출입 금지"기호 같다. 그것은 마술이 아니며 (방문자가 명시 적으로 찾지 않는 한) 존재의 영향을받지 않고 귀하의 재산을 방황 할 수 있습니다. 플러드 라이트와 면도기 울타리와 같은 인터넷 제품이 있지만, 원하는 robots.txt것이 아닌 경우에는 그렇지 않습니다.

— Parthian Shot

25

robots.txt크롤링 한 다른 페이지의 URL에 대한 링크가있는 경우 Google은 의도적으로 색인에 허용되지 않는 URL을 포함하고있는 것 같습니다 . 웹 마스터 도구 도움말 페이지 를 인용하려면 다음 단계를 따르십시오 .

"Google은 robots.txt에 의해 차단 된 페이지의 콘텐츠를 크롤링하거나 색인을 생성하지 않지만 웹의 다른 페이지에서 URL을 찾으면 색인을 생성 할 수 있습니다. 결과적으로 페이지의 URL 및 기타 사이트 링크의 앵커 텍스트 또는 Open Directory Project (www.dmoz.org)의 제목과 같은 공개적으로 사용 가능한 정보가 Google 검색 결과에 나타날 수 있습니다. "

Google은 Disallow지시문을 색인 생성 이 아닌 페이지 크롤링을robots.txt 금지 하는 것으로 해석 합니다. 나는 그것이 법률 변호사에게 나에게 적용되는 경우에도 기술적으로 유효한 해석이라고 생각합니다.

에서 이 인터뷰 기사 Google의 매트 컷츠는 좀 더 배경을 제공하고 그들이 왜 이렇게위한 합리적인 사운드 설명을 제공 않습니다 :

"초창기에는 매우 인기있는 많은 웹 사이트가 전혀 크롤링되고 싶지 않았습니다. 예를 들어 eBay와 New York Times는 검색 엔진을 허용하지 않았거나 적어도 Google이 해당 페이지를 크롤링하지 못하도록했습니다. 의회 도서관에는 검색 엔진으로 크롤링 할 수 없다고하는 여러 섹션이 있으므로 누군가가 Google에 와서 eBay에 입력했을 때 eBay를 크롤링하지 않아 eBay를 반환 할 수 없었습니다. 우리가 생각하기로 결정한 타협은 robots.txt에서 크롤링하지는 않았지만 본 URL 참조를 반환 할 수있었습니다. "

두 페이지 모두에서 권장 되는 솔루션 은 색인을 생성하지 않으려는 페이지에 noindex메타 태그 를 추가하는 것 입니다. ( X-Robots-TagHTTP 헤더는 HTML이 아닌 페이지에서도 작동해야합니다. 리디렉션에서 작동하는지 확실하지 않습니다.) 역설적으로, 이는 Googlebot이 해당 페이지를 완전히 제거하거나 페이지를 크롤링 하도록 허용 해야 함을 의미합니다. robots.txt그렇지 않으면 메타 태그를 처음부터 볼 수 없기 때문에 Googlebot에 대해 더 허용적인 별도의 규칙을 추가하여).

메타 태그와 X-Robots-Tag헤더를 값 noindex,nofollow과 함께 보내도록 리디렉션 / 스파이더 트랩 스크립트를 수정 했으며 Googlebot이 내 스크립트 URL을 크롤링 할 수 있도록 허용했습니다 robots.txt. Google에서 내 사이트의 색인을 다시 생성하면 작동하는지 확인할 수 있습니다.

— 일 마리 카로 넨
소스

5

이렇게하면 Google (및 좋은 봇)이 해당 페이지를 크롤링하고 콘텐츠를 읽는 것을 막을 수 있지만 SERP에 링크 된 경우 다음 형식의 URL 전용 링크를 계속 표시 할 수 있습니다.

Google SERP의 URL 만 링크

보다시피 제목이나 설명은 없으며 단지 URL 일뿐입니다. 당연히 이러한 유형의 결과는 명시 적으로 검색하지 않는 한 SERP에서 생략됩니다.

답변에서 언급했듯이 SERP에 URL이 전혀 표시되지 않게하려면 로봇을 허용해야하지만 noindex 메타 태그를 포함해야합니다.

— 미스터 화이트
소스