회사가 내 웹 사이트를 크롤링 할 권리를 암시합니까?


30

McAfee SiteAdvisor가 내 웹 사이트를 "보안 문제가있을 수 있음" 으로보고 한 것으로 나타났습니다 .

나는 McAfee가 내 웹 사이트에 대해 생각하는 것에 대해 거의 신경 쓰지 않습니다. 직접 보호 할 수 있으며 그렇지 않은 경우 McAfee는 도움을 요청하는 회사가 아닙니다. 대단히 감사합니다. 그러나 나를 귀찮게하는 것은 그들이 내 허락없이 내 웹 사이트를 크롤링했다는 것입니다.

명확히하기 위해 : 내 웹 사이트에는 아직 콘텐츠가 거의 없으며 개인 용도로 사용할 수있는 자리 표시 자와 파일 만 있습니다. ToS가 없습니다.

내 질문은 : McAffee가 내 웹 사이트에서 콘텐츠를 다운로드하거나 크롤링 할 권리가 있습니까? 그들이 그렇게하지 못하게 할 수 있습니까? 어떤 종류의 "나의 성, 내 규칙"원칙이 있어야한다는 느낌이 들지만, 기본적으로 모든 법적 사항에 대해서는 아무것도 모른다.

업데이트 : 아마도 서버 공급자가 SiteAdvisor의 조사 결과에 대해 정기적으로 이메일을 보낸다는 것을 언급했을 것입니다 . 그것이 '평가'에 대해 알게 된 이유입니다.


78
인간에게 웹 사이트를 볼 권리가 있다고 말 하시겠습니까? 그렇다면 왜 인간의 로봇 종을 차별합니까? 그렇지 않다면 왜 처음에 웹 사이트입니까?
jwodder

47
SiteAdvisor가 귀하의 사이트를 신고 한 것을 어떻게 알았습니까? 당신은 그들의 사이트를 보지 않았습니까? 그렇다면 무엇이 옳았습니까?
Joe Sniderman

17
덧붙여서, 나는 비슷한 보고서를 보았을 때 일반적으로 SiteAdvisor 보고서를 가볍게 닫지 않을 것입니다. 가장 일반적인 경우는 일부 자동 스크립트에 의해 악의적 인 콘텐츠 (스팸 / 피싱에 사용되는 "트램폴린"페이지, 링크 된 바이러스 호스팅)를 배치하기 위해 인기있는 CMS (WordPress, Joomla, Drupal 등)의 이전 / 패치되지 않은 버전이있는 경우입니다. 사기 이메일, 브라우저 익스플로잇, 이름을 지정) 당신은 알지도 못하고 나쁜 물건을 호스팅 할 수 있습니다. 또한 많은 사용자가 이러한 도구를 사용하기 때문에 일반적으로 깨끗한 기록을 원합니다. 이러한 경고는 사용자를 놀라게 할 수 있기 때문입니다.
Matteo Italia

35
무언가를 잠 그려면 잠그십시오. 웹 사이트를 설치하고 GET 요청에 응답하도록 서버를 구성했습니다. 말 그대로 모두를 초대했습니다. 이것은 "암시적인"권리가 아니며 웹 서버가 작동하는 방식입니다. 언급 한대로 robots.txt 또는 IP 제한 또는 로그인 한 사용자로 제한된 컨텐츠 금지.
mfinni

20
@RolazaroAzeveires : 자동화 된 프로세스는 인간 방문자가이를 암시 할 수있는 것이 아니라 공격을 막기 때문에 "이 파일을 가질 수 있습니까?" 웹 서버가 다음과 같이 응답하도록 구성했습니다. "물론! 여기 있습니다. 다른 것이 필요하십니까?" 그것은 당신의 허락없이 크롤링되지 않고, 당신의 허락으로 크롤링됩니다.
Marcks Thomas

답변:


49

이에 대한 법적 선례가 있습니다. Field v. Google Inc., 412 F. Supp. 2d 1106, (US Dist. Ct. Nevada 2006). Google은 여러 가지 요소를 바탕으로 요약 판단을 거쳤으며, 특히 저자가 웹 사이트의 메타 태그에서 robots.txt 파일을 사용하지 않았기 때문에 웹 사이트 소유자가 색인을 생성하고 싶지 않은 페이지를 크롤링하고 캐싱하지 못하게되었습니다.

판결 pdf

robots.txt 파일을 다루는 미국 법률은 없습니다. 그러나 다른 법원 소송에서는 일부 내용을 보호하기 위해 의도적으로 전자적 조치를 우회하는 것으로 robots.txt 파일이 결과적으로 초래 될 수있는 선례가 설정되었습니다. HEALTHCARE ADVOCATES, INC 대 HARDING, EARLEY, FOLLMER & FRAILEY 등 al, Healthcare Advocates는 Harding 등이 본질적으로 Wayback Machine의 기능을 해킹하여 robots.txt 파일을 사용하여 최신 버전의 캐시 된 페이지 파일에 액세스 할 수 있다고 주장했습니다. Healthcare Advocates는이 사례를 잃어 버렸지 만, 지방 법원은 Harding 등이 "자물쇠를 고른"것이 아니라 Wayback Machine에 대한 액세스 권한을 부여한 Wayback Machine의 서버로드 문제로 인해 파일에 액세스 할 수 있다고 지적했습니다. 캐시 파일이 필요할 때

법원 판결 pdf

누군가가 옆에이 판결과 회전을 소요 할 때까지 그것은 단지 시간 IMHO의 문제이다 : 법원은 robots.txt에이 표시 입니다 크롤링하고 우회 방지하기 위해 잠금 되는 자물쇠를 따기.

불행히도 이러한 소송 중 다수는 "크롤러에게 허용되지 않으며 크롤러가 해당 설정 / 명령을 무시했다고 말하려고했습니다."만큼 간단하지 않습니다. robots.txt 파일을 미국 DCMA 법에 따라 전자 보호 방법으로 고려해야하는지 여부에 대한 핵심 문제보다 결과에 영향을 미치는 다른 모든 문제가이 모든 경우에 있습니다.

그러나 이것은 미국 법이며 중국의 누군가는 법적인 문제 때문에가 아니라 중국이 미국 상표 및 저작권 보호를 시행하지 않기 때문에 원하는 것을 할 수 있기 때문에 행운을 빕니다.

짧은 대답은 아니지만 질문에 대한 간단한 대답은 없습니다!


1
감사합니다. robots.txt에 대해 마음에 들지 않는 점은 실제 표준이 아니라는 것입니다 (법에서 요구하는 표준은 아님). 이 회사들은 단순히 그것을 무시할 수 있습니다. 난 안 그들이 말해 위치에있는 좋아해요 "당신은 robots.txt에 파일을 넣어해야 어쩌면 우리가 당신의 웹 사이트를 크롤링하지 않습니다,하지만 어쩌면 우리는, 우리는 같이 우리를 할 것입니다." 웹 사이트의 메타 데이터에 웹 사이트의 ToS를 지정하는 표준이 있다면 좋을 것입니다.
kralyk

5
@jcanker이 두 경우는 저작권 침해 주장에 관한 것입니다. Google 및 archive.org에서 운영하는 것과 같이 콘텐츠를 캐시하는 크롤러의 동작에서 저작권 문제가 발생한다는 것은 완벽합니다. 그러나 McAfee SiteAdvisor는 실제로 액세스하는 웹 사이트에서 컨텐츠를 복사하여 저장하지 않고 공개적으로 제공하지는 않습니다. 나는 변호사가 아니지만이 구별은 robots.txt를 존중하는지 여부에 관계없이 SiteAdvisor와 같은 시스템의 동작에 어떤 경우 든 적용 할 수 있다는 것을 강력하게 의심 할만한 이유를 제공한다고 생각합니다 .
Eliah Kagan

12
@kralyk-re "이 회사들은 단순히 그것을 무시할 수 있습니다." 그래 인터넷이 작동하는 방식입니다. 크롤러가 사용자의 웹 페이지에 액세스하는 것처럼 가장하는 것이 다소 기본적 일지라도 사소한 것이 될 수 있습니다. 당신은 기술적으로 불가능한 것을 요구하고 있습니다. 실제로, 당신이 요구하는 것을 통해 생각한다면, 당신이 찾는 것이 논리적이지 않고, 그것은 의미가 없습니다. 법적 구별을 제외하고. 이 답변에서 설명한대로 가능한 유일한 보호 방법은 (1) 사용자 로그인 인증 뒤에 중요한 내용을 숨기고 (2) 법적 보호를하는 것입니다.
ToolmakerSteve

@ToolmakerSteve 로봇을 완전히 금지하는 것은 기술적으로 불가능하다는 것을 알고 있습니다. 이것은 다른 상황입니다-기술적 인 해결책을 찾지 않고, 그것이 합법적인지 묻고 있습니다. 또한 McAffee가 웹 사이트를 크롤링한다는 사실을 알았습니다. 감지 할 필요가 없습니다.
kralyk

판례는 다른 방법이있다 : 이베이 V 입찰자의 가장자리

91

예, 그들은 그렇게 할 권리가 있습니다-당신은 공개 웹 사이트를 만들었습니다. 왜 그렇게 생각하지 않습니까?

물론 당신도 그들을 막을 권리가 있습니다. robots.txt를 사용 하여 웹 사이트를 크롤링하지 않도록하거나 fail2ban 과 같은 방식으로 웹 사이트에 액세스하지 못하게 할 수 있습니다 .

또는 걱정하지 말고 계속해서 생활하십시오. 그것은 아무것도 아프지 않으며 인터넷 조사의 양성 측면에 있습니다.


4
> "예, 그들은 그렇게 할 권리가 있습니다-당신은 공개 웹 사이트를 만들었습니다. 왜 그렇게 생각하지 않습니까?" 음, 기술적으로 가능한 것이 반드시 그것이 합법적이라는 것을 의미하지는 않습니다. 예를 들어 YouTube의 ToS는 비디오 다운로드를 금지하므로 기술적으로 매우 쉽지만 여전히 허용되지 않습니다. 내 사이트에 대해 "이메일로 문제가있을 수 있습니다"라는 이메일을 보내는 제공자가 아닌 경우 SiteAdvisor에 대해 걱정하지 않아도됩니다 ...
kralyk

16
@kralyk-대중 (McAfee 포함)을보고 싶지 않다면 웹에 올리지 마십시오. 그렇게 간단합니다. 당신은 당신의 웹 사이트를 통제합니다. 아무도 당신이 그것을 거기에 두도록 강요하지 않으며, 사람들이 그것을 보지 않기를 원한다면, 거기에 두지 마십시오. 당신이 거기에 그것을 넣으려고한다면, 사람들 (당신을 물건을 팔고 싶은 사람들을 포함하여) 사람들이 그것을보고 있다는 사실에 놀라지 마십시오. 욕망을 다른 사람의 문제로 바꾸려고하지 마십시오.
Michael Kohne

9
@kralyk : 진심으로? 여기서 문제가 이중 표준이라고 생각하십니까? McAfee의 어느 누구도 귀하의 웹 사이트를 알고 있거나 걱정하지 않습니다. 그들도 마찬가지입니다. 웹을 크롤링하는 모든 사람이 모든 사람의 ToS를 읽도록 기대하는 것은 터무니없는 일입니다. 이것이 robot.txt가 발명 된 이유입니다.
ToolmakerSteve

3
@kralyk ToS가 의미있는 곳이 되려면 문제의 리소스에 대한 액세스 권한을 설정해야합니다. 보호되지 않은 페이지를 크롤링하는 로봇은 계정을 등록하고 ToS를 승인 한 다음 자격 증명을 로봇에 제공하는 사람과는 완전히 다릅니다.
Andrew B

4
@kralyk- McAfee가 위반한다고 생각하는 사이트에 어떤 종류의 TOS 가 있습니까?
Kevin Fegan

11

이 행동이 윤리적인지 아닌지는 완벽하게 명확하지 않습니다.

공개 사이트를 크롤링하는 행위는 그 자체가 비 윤리적이지 않습니다 (robots.txt 또는 기타 기술적 조치를 사용하여 명시 적으로 금지하지 않고이를 우회하는 경우 제외).

그들이하고있는 일은 세상에 당신이 안전하지 않다는 것을 알리면서 냉담한 전화를하는 것과 같습니다. 그것이 당신의 명성을 손상시키고 정당하지 않다면 비 윤리적입니다. 그것이 그렇게하고 그것을 해결하는 유일한 해결책은 지불하는 것과 관련이 있습니다. 그러나 나는 이것이 진행되고 있다고 생각하지 않습니다.

비 윤리적 인 또 다른 시간은 누군가가 귀하의 사이트를 귀하의 콘텐츠 또는 데이터에 맞게 크롤링 한 다음 자신의 것으로 표시하는 것입니다. 그러나 그것도 진행되고 있지 않습니다.

따라서이 경우 그들의 행동은 윤리적이며, 무시할 수도 있습니다.

귀하와 관련이없고 이메일을 요청하지 않은 경우 스팸으로 보내는 관련 행동은 비 윤리적이지만 수신 거부가 의심됩니다.


1
Disallowrobots.txt 파일의 지시문을 "기술적 조치 금지" 라고 부르지 않을 것 입니다. robots.txt는 무료 요청의 역할을하며 잘 작동하는 봇은이를 준수하지만 의무와 실제 보안은 필요하지 않습니다. 실제로, 잘못 행동 한 봇은 robots.txt에 특정 경로를 크롤링하도록 초대 할 수 있습니다.
CVn

2
@ MichaelKjörling, 절반 만 동의합니다. 실제 보안은 없지만 의무가 있습니다. 그것은 금지 표시이며, 귀하가 입장 할 수있는 권한이 없으므로 귀하의 의무는 유지해야합니다.
Ben

자물쇠가없는 "유지"표시입니다. 집에서 시도해보고 도둑이 부른 후 얼마나 많은 동정심을 느끼는지보십시오! (실제로 사람들이 접근하기를 원하는 잠금 해제 된 문과 창을 명시 적으로 나타내는 "유지"표시입니다.)
Randy Orrison

2

특정 사람이나 회사가 귀하의 웹 사이트에 액세스하는 것을 차단하기위한 기술적 접근 :

특정 IP 주소 또는 주소 범위가 사이트의 페이지에 액세스하지 못하도록 차단할 수 있습니다. 사이트가 Apache 웹 서버에서 실행중인 경우 .htaccess 파일에 있습니다.

http://www.htaccess-guide.com/deny-visitors-by-ip-address/

웹 서버가 액세스 한 IP 주소를 기록하고 해당 IP 주소를 찾아 McAfee와 관련된 IP 주소를 찾도록하십시오. 정기적 인 방문자가없는 경우 지금 쉽게 알 수 있습니다.

물론 향후 IP 주소를 변경할 수도 있습니다. 그래도 찾은 IP 주소를 찾아보고 누가 소유하고 있는지 확인하면 McAfee가 소유 한 전체 주소 블록에 대해 배우고 모두 차단할 수 있습니다.


그렇게하기위한 법적 근거 :

"웹 사이트 소유자는 법적으로 일부 사용자, 법원 규칙을 차단할 수 있습니다"

http://www.computerworld.com/s/article/9241730/Website_owners_can_legally_block_some_users_court_rules

(귀하의 웹 사이트가 개인 웹 사이트 인 경우 아무도 일부 사용자를 차단할 권리에 대해 이의를 제기하지 않습니다. 그러나 비즈니스 웹 사이트 인 경우 해당 토론의 양쪽에 법적 및 도덕적 주장이 있습니다. 비즈니스 규모가 작을수록 쉬워집니다 법적으로 보호되어야하며, 다른 사람이 어쨌든 불평 할만큼 충분히 신경 쓸 필요는 없습니다.)


"리퍼러의 방문자 거부"에 관심이있을 수도 있습니다.

"로그를보고 트래픽이 놀라 울 정도로 증가한 것을 발견했지만 실제 파일 요청이 증가하지 않았다면 아마도 콘텐츠 (예 : CSS 파일)를 꼬집거나 웹 사이트를 해킹하려는 사람 일 수 있습니다 (간단히 비공개 콘텐츠를 찾으려면) "

http://www.htaccess-guide.com/deny-visitors-by-referrer/

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.