robots.txt를 순종 외에, 순종 nofollow
과 noindex
에서 <meta>
요소 및 링크 :
robots.txt가 인덱싱을 차단하는 적절한 방법 이 아니라고 생각하는 사람들이 많으며 이러한 관점 때문에 많은 사이트 소유자 <meta name="robots" content="noindex">
에게 웹 크롤러에게 페이지를 인덱싱하지 말라고 태그에 의존하도록 지시했습니다 .
웹 사이트 (PageRank와 유사한 것) 사이의 연결 그래프를 작성하려는 경우
(및 <meta name="robots" content="nofollow">
)은 소스 사이트가 대상 사이트를 적절하게 보증 할만큼 충분히 신뢰할 수 없음을 나타냅니다. 따라서 대상 사이트를 인덱싱 할 수 있지만 두 사이트 간의 관계는 저장하지 않아야합니다.
SEO는 실제 과학보다 예술에 가깝고, 자신이하는 일을 아는 많은 사람들과 자신이하는 일을 아는 사람들의 요약을 읽는 많은 사람들에 의해 실행됩니다. SEOmoz의 블로그 게시물에서 누군가 제대로 읽거나 읽지 못하여 올바르게 해석되거나 해석되지 않을 수있는 규칙으로 인해 다른 사이트에서 완벽하게 수용 가능한 작업을 수행하여 사이트에서 차단되는 문제가 발생할 수 있습니다.
이러한 인적 요소 때문에 귀하가 Google, Microsoft 또는 Yahoo!가 아닌 경우 달리 입증되지 않는 한 악의적 인 것으로 간주됩니다. 웹 사이트 소유자에게 위협이되지 않는 것처럼 행동하고 잠재적으로 악의적이지만 (양호한) 크롤러가 행동하기를 원하는 방식에 따라 행동하려면 다음과 같이주의해야합니다.
- 차단 된 것으로 감지되면 사이트 크롤링 중지 : 작동중인 페이지의 403/401, 제한, 시간 초과 등
- 비교적 짧은 시간에 전체 크롤링을 피하십시오. 사이트의 일부를 크롤링하고 나중에 다시 (몇 일 후) 다른 부분을 크롤링하십시오. 병렬 요청을하지 마십시오.
/admin/
예를 들어 민감한 지역을 크롤링하지 마십시오 .
그럼에도 불구하고 UA 스푸핑과 같은 블랙 햇 기술을 사용하거나 크롤링 패턴을 의도적으로 숨기지 않는 한 오르막 전투가 될 것입니다. 위와 같은 이유로 많은 사이트 소유자가 알 수없는 크롤러를 보이지 않게 차단합니다 누군가 "사이트를 해킹"하려고하지 않을 가능성이 있습니다. 많은 실패에 대비하십시오.
알려지지 않은 크롤러가 가지고있는 부정적인 이미지와 싸우기 위해 할 수있는 한 가지는 사용자 에이전트 문자열에서 자신이 누구인지 명확하게하는 것입니다.
Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.
어디는 http://example.com/aarobot.html
당신이 달성하기 위해 노력하고 왜 위협이 아니에요하는지 설명합니다. 이 페이지에는 몇 가지 사항이 있습니다.
- 직접 연락하는 방법에 대한 정보
- 크롤러가 수집하는 내용 및 수집하는 이유에 대한 정보
- 옵트 아웃 및 수집 된 데이터를 삭제하는 방법에 대한 정보
마지막 선택이 핵심입니다. 올바른 옵트 아웃은 Money Back Guarantee ™와 같으며 부당한 양의 영업권을 얻습니다. 인간적인 것이어야합니다. 간단한 단계 (이메일 주소 또는 이상적으로는 양식)와 포괄적 ( "고정"은 없어야합니다. 옵트 아웃은 예외없이 크롤링을 중지 함을 의미합니다).