도메인에 의해 거부 된 로봇은 여전히 ​​검색 결과에 나열됩니다


9

따라서 검색 대상이 아닌 모든 사이트에 robots.txt 파일을 적용했습니다 ( 실시간 Google 검색 결과에서 웹 사이트를 제외하는 방법? 또는 기타 유사한 질문).

그러나 검색어가 충분히 구체적이면 결과를 통해 도메인 자체를 찾을 수 있습니다. 이에 대한 예는 여기 에서 찾을 수 있습니다 . 링크에서 볼 수 있듯이 도메인 자체를 찾을 수 있습니다 (콘텐츠가 캐시되지 않지만 도메인이 나열 됨). 또한 site:hyundaidigitalmarketing.com3 가지 결과 로 검색을 수행 해야합니다. 백 링크를 확인하는 것도 몇 가지를 제공하지만 분명히 링크를 막거나 (컨텍스트에서 연결이 허용됨) 어떻게 처리되는지 제어 할 수는 없습니다 (호스트에게 nofollow, noindex를 추가하도록 지시 할 수 없음).

이제는 이것이 심각한 경우라는 것을 알고 있지만 회사 고객 이이 작업을 수행하고 있습니다. 실제로, 우리의 도메인은 꽤 좋으므로 임의의 검색조차도 관련 결과를 나타냅니다. 이제 어떻게 이런 일이 발생하는지에 대한 보고서를 작성해야합니다.

그래서 저는 훌륭한 Stack Exchange 네트워크로 돌아가서 내가 잃어버린 것을 이해하거나 무슨 일이 일어나고 있는지 이해하도록 도와줍니다. 업계 기사에 대한 링크는 매우 유용하지만 제공 할 수있는 모든 것은 분명히 좋습니다. 나는 이것을 미래에 돌이킬 수있는 최선의 방법으로 바운티를 제공하고자합니다.

편집 : 나는 그것에 대해 더 많은 답변을 얻기 위해이 질문에 현상금을 열었습니다. 나는 또한 내 자신의 연구 결과를 아래에 제공했다.

답변:


5

이 정보의 출처를 찾아야하지만 robots.txt가 반드시 페이지의 색인을 생성하지 못하게하는 것은 아닙니다. 그러나 HTTP x-robots-tag 헤더는 분명히 작동합니다.

Apache를 사용하는 경우 .htaccess 파일에서이 행을 사용하여 페이지를 대량으로 차단할 수 있습니다.

Header set x-robots-tag: noindex

시도해보고 무슨 일이 일어나는지보십시오.

편집하다

( 소스를 찾았 습니다 . 내가 기억하는 것은 아니지만 작동합니다).


안녕하세요, 답변 주셔서 감사합니다. 위의 예제로 사용 된 사이트의 html 출력에 이미 구현 된 로봇 메타 태그와 다른 점은 무엇입니까? 내가 알 수있는 한 이것은 단지 교체 역할을하므로 모든 페이지에 넣을 필요는 없습니다.
Kevin Peno

@ 케빈, 그들은 효과면에서 동일 해야 합니다. 당신이 말한 것처럼 관리하기가 더 쉬울 것입니다.
John Conde

4

Matt Cutts가 이것에 대해 이야기했다고 생각합니다. 내 기억이 정확하면 연결과 관련이 있습니다. 자세한 내용은 다음과 같습니다. http://www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=ko

Google 제거 도구를 사용하여 제거 할 수 있습니다.


site : gmpackageguide.com URL은 많지 않습니다. 로봇이 허용되지 않기 전에 색인에 있다고 가정합니다. 난 그냥 그들을 제거합니다.
Joe

앞으로는 웹 디자인 담당자에게 웹 페이지 헤드 섹션에 항상 색인이없고 색인을 포함하지 않도록 지시 할 것입니다. 사용중인 CMS가 그렇게 할 수 있다고 생각합니다.
Joe

@Joe-동의하지만 noindex, follow발생할 수있는 백 링크에서 PageRank를 배포하는 것이 좋습니다 .
Mike Hudson

@Joe & @Mike, 정보 주셔서 감사합니다. 그러나 hyundaidigitalmarketing.com 사이트를 방문하십시오. 1 년 전에이 사이트를 직접 시작했습니다. robots.txt 파일과 메타 헤더가 모두 포함되어 있습니다. 그러나, site:hyundaidigitalmarketing.com또는 용어를 사용하여 Google에서 검색을 수행하는 양식을 볼 수 있듯이 hyundai digital marketing도메인 자체는 계속해서 첫 번째 최상의 결과로 표시됩니다. 이것을 막아야합니다.
Kevin Peno

또한 검색하면 links:hyundaidigitalmarketing.com뒤로 링크 가 표시됩니다. 분명히 서식 백 링크를 막거나 제어 할 수 없으며 유효합니다. 사이트에 연결하면 이것이 어떻게 / 왜인지 이해해야 상사에게 이것을 설명 할 수 있습니다. 이것이 내 질문을 조금 더 잘 설명하기를 바랍니다.
Kevin Peno

3

이 주제에 대한 나의 연구에 따르면, 데이터의 인덱싱 및 캐싱을 방지 할 수있는 100 % 보장 된 방법은 없지만 봇 트래픽 증가를 처리하려고한다고 가정하면 상당히 가까이 다가올 수 있습니다. 정보를 해석 한 방법은 다음과 같습니다.

robots.txt 파일은 로봇 정보를 사이트 전체에 정의하는 데 사용되고 메타 태그는 페이지 별 세부 정보에 사용됩니다. 나는 2의 뒤에있는 정신이 정확히 이것이라고 생각하지만 실제로는 그렇지 않습니다.

robots.txt 파일을 만들지 마십시오

이는 모든 주요 검색 공급자와 함께 작동하여 SERP에 콘텐츠가 표시 되지 않도록 하지만 색인 생성을 방지 하지는 않습니다 . 또한 로봇이 페이지를 크롤링하지 못하도록 방지하므로 로봇 메타 태그 (아래 참조)도 무시됩니다. 이 때문에 2를 함께 사용할 수 없으므로 색인 작성을 방지하려면 robots.txt 파일을 사용하지 않아야합니다.

참고 : Google은 Noindex: /robots.txt에서 의 사용을 지원 하지만 문서화되지 않았으며 (누가 언제 알게되는지) 다른 사람에게도 적용되는지 알 수 없습니다.

HTTP 헤더 또는 HTML META 태그를 사용하여 모든 것을 방지하십시오.

robots.txt 파일과 달리 robots 메타 태그 (및 HTTP 헤더)는 널리 지원되며 놀랍게도 기능이 풍부합니다. 각 페이지에 설정되도록 설계되었지만 최근 X-Robots-Tag헤더를 채택하면 사이트 전체를 쉽게 설정할 수 있습니다. 이 방법의 유일한 단점은 봇이 사이트를 크롤링한다는 것입니다. 이것은 nofollow봇 을 사용하여 제한 될 수 있지만 모든 봇이 진실하게 존중하는 것은 아닙니다 nofollow.

이 오래된 블로그 게시물 에서 많은 정보를 발견했습니다 . 최초 릴리스는 2007 년이지만 그 이후로 많은 정보가 최신 기능이므로 정기적으로 업데이트되는 것으로 보입니다.

요약하면의 HTTP 헤더를 보내야합니다 X-Robots-Tag: noindex,nofollow,noodp,noydir. 이유는 다음과 같습니다.

  • nofollow사이트에서 크롤링되는 페이지 수를 제한하여 봇 트래픽을 줄입니다. * noindex페이지에 색인을 생성하지 않도록 엔진에 지시합니다.
  • 이제는 noindex충분 하다고 가정 할 수 있습니다. 그러나 noindex귀하가 귀하의 사이트가 링크 된 다른 사이트로 인해 색인이 생성 될 수 있다고 말한 경우도 있습니다 . Y에서 일반적인 사이트 링크를 방지하는 가장 좋은 방법! 디렉토리 ( noydir) 및 열린 디렉토리 ( noodp).
  • HTTP 헤더를 사용하여 파일, 이미지 및 기타 비 HTML 파일을 로봇에게 데이터를 적용! 예!

이것은 99 %의 경우에 효과가 있습니다. 경우에 따라 일부 제공자가 색인을 생성 하는 것이 여전히 가능 하다는 점을 명심하십시오 . Google은을 완전히 존중한다고 주장 noindex하지만 의심합니다.

마지막으로 색인을 생성했거나 이미 색인을 생성 한 경우 정보를 색인 해제하는 유일한 방법은 각 제공 업체의 다양한 방법을 따라 사이트 / URL 제거를 요청하는 것입니다. 분명히 이것은 아마도 Google Alerts (@Joe 덕분에) 와 같은 것을 사용하여 사이트 / 페이지를 모니터링하고 싶을 것입니다 .


3

귀하의 기본 문제는 검색 엔진에 사이트의 진입 점을 제공하고 사이트를 인식하게하기 때문에 사이트에 대한 백 링크입니다. 따라서 사이트에 대한 설명은 표시하지 않지만 결과와 가장 일치한다고 생각되면 URL을 표시 할 수 있습니다.

@joe가 게시 한 기사에서 링크 된 기사를 읽 습니다.

핵심은 다음과 같습니다.

2000 년에 Google에서 시작했을 때 유용한 웹 사이트 (eBay, New York Times, California DMV)에는 robots.txt 파일이있어 모든 페이지 가져 오기를 금지했습니다. 이제 누군가가 [california dmv] 쿼리를 수행 할 때 검색 결과로 무엇을 반환해야합니까? www.dmv.ca.gov를 첫 번째 결과로 반환하지 않으면 꽤 슬플 것 같습니다. 그러나 해당 시점에 www.dmv.ca.gov에서 페이지를 가져올 수 없었습니다. 해결책은 크롤링되지 않은 링크가 올바른 링크라는 확신이 높을 때 표시하는 것입니다. 때로는 Open Directory Project에서 설명을 가져 와서 페이지를 가져 오지 않고도 많은 정보를 사용자에게 제공 할 수 있습니다.

당신이 한 연구는 또한 조용히 다루고 있으며 @john과 @joe의 대답은 모두 관련이 있습니다. 검색 엔진 차단에 대한 추가 지침을 제공하는 아래 링크를 포함 시켰습니다. 사이트를 완전히 차단한다고 생각할 수있는 유일한 방법은 콘텐츠를 표시하기 전에 완료해야하는 사이트 앞에 비밀번호 보호 형식을 추가하는 것입니다.

검색에 나타나지 않는 SEOMoz 팁


토론에 추가해 주셔서 감사합니다. 비밀번호 보호는 크롤링을 방지하는 데 효과적이지만 색인을 생성하지는 않습니다. robots.txt가이 작업을 중지하는 데 효과적이므로 비밀번호 보호의 유일한 장점은 다른 사람이 눈을 떼지 못하게하는 것입니다. 불행히도, 대부분의 컨텐츠는 "보호"될 정도로 민감하지 않으며, 그것이 생성하는 사용성 문제를 확실히 보증하지 않습니다. [계속 ...]
케빈 페노

제가 연구에서 가장 도움이되는 것으로 비유 한 것은 전화 번호부와의 비교였습니다. 검색 엔진이 전화 번호부이고 목록을 표시하지 않도록 요청하면 목록을 표시하지 않도록 요청할 수 있으며이를 존중해야합니다. 불행하게도, 검색 엔진은 다른 회사가 연락처를 판매하는 회사와 더 유사한 방식으로 행동하고 있습니다.
케빈 페노

@Kevin 유감스럽게도 검색 엔진이 현재 작동하는 방식으로 완전히 제거 될 수는 없다고 생각합니다.이 경우 URL 목록 만 있으면됩니다.
Matthew Brookes

아, 지금 이해하고 있습니다 (연구 후). 또한 부정적인 의견으로 귀하의 답변에 저의 의견을 보내지 마십시오. 나는 주제에 대한 당신의 추가를 평가하고, 나는 그러한 해결책을 구현하는 단점을 추가하고 내가 생각하는 약간의 주제를 벗어난 농담을 추가하기 위해 단순히 대답하고있었습니다. : P
Kevin Peno
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.