Google 검색 결과에 robots.txt에서 허용되지 않는 페이지가 포함되는 이유는 무엇입니까?


18

내 사이트에 검색 엔진을 멀리하려는 일부 페이지가 있으므로 robots.txt다음과 같이 파일 에서 허용하지 않았습니다 .

User-Agent: *
Disallow: /email

그러나 최근 Google은 때때로 검색 결과에서 해당 페이지에 대한 링크를 여전히 반환한다는 것을 알았습니다. 왜 이런 일이 발생하며 어떻게 막을 수 있습니까?

배경:

몇 년 전, 친척이 참여한 클럽을위한 간단한 웹 사이트를 만들었습니다. 그들은 자신의 페이지에 전자 메일 링크를 갖고 싶어서 전자 메일 주소가 너무 많아지지 않도록 노력했습니다. 스팸 mailto:링크 , 직접 링크 를 사용하는 대신 해당 링크 가 내 사이트에서 실행 되는 간단한 리디렉터 / 주소 하베스터 트랩 스크립트를 가리 키도록했습니다 . 이 스크립트는 실제 mailto:URL 로의 301 경로 재 지정 또는 의심스러운 액세스 패턴을 발견 한 경우 많은 임의의 가짜 전자 우편 주소가 포함 된 페이지와 더 많은 해당 페이지에 대한 링크를 리턴합니다 . 합법적 인 검색 봇을 함정에서 멀리 유지하려면 위의 robots.txt규칙을 설정하여 합법적 리디렉터 링크 및 트랩 페이지의 전체 공간을 허용하지 않습니다.

그러나 최근에 클럽 회원 중 한 명이 Google에서 자신의 이름을 검색했으며 첫 페이지의 결과 중 하나가 전자 메일 주소로 구성된 제목과 함께 리디렉터 스크립트에 대한 링크 일 때 매우 놀랐습니다. 하여 이름입니다. 물론, 그들은 즉시 이메일을 보냈고 Google 색인에서 주소를 가져 오는 방법을 알고 싶었습니다. Google이 robots.txt규칙 에 위배되는 것으로 보이는 URL을 전혀 색인하지 않을지 몰랐기 때문에 매우 놀랐습니다 .

Google에 삭제 요청을 제출했지만 제대로 작동 한 것 같습니다. Google이 왜 그런지를 우회하는 이유와 robots.txt허용되지 않는 페이지가 표시되지 않도록 하는 방법을 알고 싶습니다. 검색 결과.

추신. 실제로이 질문을 준비하는 동안 아래에 게시 할 가능한 설명과 해결책을 찾았지만 다른 사람이 같은 문제가있을 수 있으므로 어쨌든 물어볼 것이라고 생각했습니다 . 자신의 답변을 자유롭게 게시하십시오. 또한 다른 검색 엔진도이 기능을 수행하는지, 동일한 솔루션이 작동하는지 알고 싶습니다.


1
" Google이 내 robots.txt를 우회 하는 방법 "이미 알고있는 것 같습니다 (또는 처음에는 사이트를 어떻게 설정할 수 있었는지). robots.txt파일은 다른 사람의 차도 옆에 작은 "출입 금지"기호 같다. 그것은 마술이 아니며 (방문자가 명시 적으로 찾지 않는 한) 존재의 영향을받지 않고 귀하의 재산을 방황 할 수 있습니다. 플러드 라이트와 면도기 울타리와 같은 인터넷 제품이 있지만, 원하는 robots.txt것이 아닌 경우에는 그렇지 않습니다.
Parthian Shot

답변:


25

robots.txt크롤링 한 다른 페이지의 URL에 대한 링크가있는 경우 Google은 의도적으로 색인에 허용되지 않는 URL을 포함하고있는 것 같습니다 . 웹 마스터 도구 도움말 페이지 를 인용하려면 다음 단계를 따르십시오 .

"Google은 robots.txt에 의해 차단 된 페이지의 콘텐츠를 크롤링하거나 색인을 생성하지 않지만 웹의 다른 페이지에서 URL을 찾으면 색인을 생성 할 수 있습니다. 결과적으로 페이지의 URL 및 기타 사이트 링크의 앵커 텍스트 또는 Open Directory Project (www.dmoz.org)의 제목과 같은 공개적으로 사용 가능한 정보가 Google 검색 결과에 나타날 수 있습니다. "

Google은 Disallow지시문을 색인 생성 이 아닌 페이지 크롤링을robots.txt 금지 하는 것으로 해석 합니다. 나는 그것이 법률 변호사에게 나에게 적용되는 경우에도 기술적으로 유효한 해석이라고 생각합니다.

에서 이 인터뷰 기사 Google의 매트 컷츠는 좀 더 배경을 제공하고 그들이 왜 이렇게위한 합리적인 사운드 설명을 제공 않습니다 :

"초창기에는 매우 인기있는 많은 웹 사이트가 전혀 크롤링되고 싶지 않았습니다. 예를 들어 eBay와 New York Times는 검색 엔진을 허용하지 않았거나 적어도 Google이 해당 페이지를 크롤링하지 못하도록했습니다. 의회 도서관에는 검색 엔진으로 크롤링 할 수 없다고하는 여러 섹션이 있으므로 누군가가 Google에 와서 eBay에 입력했을 때 eBay를 크롤링하지 않아 eBay를 반환 할 수 없었습니다. 우리가 생각하기로 결정한 타협은 robots.txt에서 크롤링하지는 않았지만 본 URL 참조를 반환 할 수있었습니다. "

두 페이지 모두에서 권장 되는 솔루션 은 색인을 생성하지 않으려는 페이지에 noindex메타 태그 를 추가하는 것 입니다. ( X-Robots-TagHTTP 헤더는 HTML이 아닌 페이지에서도 작동해야합니다. 리디렉션에서 작동하는지 확실하지 않습니다.) 역설적으로, 이는 Googlebot이 해당 페이지를 완전히 제거하거나 페이지를 크롤링 하도록 허용 해야 함을 의미합니다. robots.txt그렇지 않으면 메타 태그를 처음부터 볼 수 없기 때문에 Googlebot에 대해 더 허용적인 별도의 규칙을 추가하여).

메타 태그와 X-Robots-Tag헤더를 값 noindex,nofollow과 함께 보내도록 리디렉션 / 스파이더 트랩 스크립트를 수정 했으며 Googlebot이 내 스크립트 URL을 크롤링 할 수 있도록 허용했습니다 robots.txt. Google에서 내 사이트의 색인을 다시 생성하면 작동하는지 확인할 수 있습니다.


5

이렇게하면 Google (및 좋은 봇)이 해당 페이지를 크롤링하고 콘텐츠를 읽는 것을 막을 수 있지만 SERP에 링크 된 경우 다음 형식의 URL 전용 링크를 계속 표시 할 수 있습니다.

Google SERP의 URL 만 링크

보다시피 제목이나 설명은 없으며 단지 URL 일뿐입니다. 당연히 이러한 유형의 결과는 명시 적으로 검색하지 않는 한 SERP에서 생략됩니다.

답변에서 언급했듯이 SERP에 URL이 전혀 표시되지 않게하려면 로봇을 허용해야하지만 noindex 메타 태그를 포함해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.