robots.txt에서 어떤 봇과 스파이더를 차단해야하나요?


14

하기 위해 :

  1. 내 웹 사이트의 보안 강화
  2. 대역폭 요구 사항 감소
  3. 이메일 주소 수집 방지

답변:


17

이메일을 수집하거나 사이트의 취약점을 테스트하는 봇은 robots.txt를 존중하지 않습니다. 실제로 이러한 악의적 인 봇은 robots.txt를보고 사이트를 더 잘 매핑합니다. 당신이 어떤 지점을 가지고 있다면 그것은 Disallow:사이트를 더 잘 공격하는 데 사용됩니다. 사이트를 수동으로보고있는 해커는 허용하지 않으려는 파일 / 디렉토리를 검사하는 데 추가 시간을 소비해야합니다.


3
흥미로운 점. 허용되지 않는 목록에 가짜 페이지를 추가하여 해당 봇을 자동으로 차단할 수 있도록하는 것이 유일한 목적인지 궁금합니다.
Steven Sudit

5
@Steven Sudit는 나쁜 생각이 아닙니다. 이것을 허니팟이라고합니다.
Rook

그렇습니다. 도매 도난을 감지하기 위해 소수의 가짜 항목을 추가하는 디렉토리 컴파일러 (전화 번호부 등)의 표준 트릭을 더 많이 생각하고 있었지만 정확히 맞습니다.
Steven Sudit

그 허니팟을 타르 핏으로 사용하면 불법 색인 작성기도 화나게됩니다. 실제로 스팸 발송자에게하는 것이 일반적입니다. 타르 핏 이메일 서버로 연결되는 허니팟 인덱싱 가능한 이메일 주소를 남겨 두십시오.
Mark Henderson

@Farseeker 규칙을 어기는 사람들을 처벌하는 데 문제가 없습니다. 나쁜 데이터로 스패머를 속이는 것은 흥미로운 일입니다.
Rook

4

robots.txt는 웹 사이트의 보안을 강화하거나 이메일 주소 수집을 방지하지 않습니다. robots.txt는 검색 엔진이 웹 사이트의 섹션을 건너 뛰는 가이드입니다. 이들은 색인되지 않으며 공개 검색 엔진에 표시하지 않으려는 섹션에 사용해야합니다.

그러나 이렇게해도 다른 봇이 사이트 전체를 다운로드하여 보안을 강화하거나 전자 메일 수집을 방지 할 수는 없습니다. 보안을 강화하려면 인증을 추가하고 보안 섹션 이외의 인증 된 사용자 만 허용해야합니다. 전자 메일 주소 수집을 방지하려면 웹 사이트에서 전자 메일을 일반 텍스트 (또는 쉽게 해독 할 수있는 텍스트)로 넣지 마십시오.


1

robots.txt는 보안에 도움이되지 않습니다. 어렴풋한 무언가를하고 싶은 봇은 어쨌든 무시합니다.


0

robots.txt 파일은 봇과 스파이더가 특정 컨텐츠를 남겨 두라는 요청의 역할 만합니다. 실제로 액세스를 막을 수는 없습니다. "좋은"봇은이를 존중하지만 "나쁜"봇 (아마도 차단하려는 봇)은이를 무시하고 어쨌든 진행할 것입니다.


-1

robots.txt 대신 보안 문자 코드를 사용해야 할 수도 있습니다.


보안 문자 코드는 웹 크롤러 (robots.txt가 처리하는 것)와 관련이 없습니다.
user48838

그것은 잘못된 downvote였습니다. 요점은 크롤러가 robots.txt를 무시할 수 있지만 보안 문자 코드는이를 완전히 차단하지 않으면 속도가 느려질 것입니다. 잘못 해 주셔서 감사합니다.
Steven Sudit
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.