어떤 사용자 에이전트를 설정해야합니까?


18

Ask bot이 있는데,이 헤더를 설정합니다 :

Mozilla/2.0 (compatible; Ask Jeeves/Teoma) 

이것을 고려할 때 다음과 같은 질문이 있습니다.

  • Goofy라는 웹 크롤러를 작성하는 경우 어떤 사용자 에이전트를 사용해야합니까?
  • 차이점은 내가 넣으면이다 Mozilla/2.0Mozilla/5.0?

현재 표준을 준수하도록 사용자 에이전트를 형식화하는 방법에 대한 다른 제안은 환영합니다.

답변:


32

저는 대규모 웹 크롤러의 주요 디자이너이자 저자입니다 ( metadatalabs.com/mlbot (보관 된 링크) 참조 ). 크롤러를 운영하는 데있어 가장 중요한 부분 인 공손함과 관련하여 우리에게 매우 중요한 주제를 다루고 있습니다.

첫 번째 : "Mozilla"의 이유는 사이트에 브라우저 기능이 무엇인지 알려주는 것입니다. 봇이 브라우저처럼 작동하지 않으면 "Mozilla"를 포함시킬 특별한 이유가 없습니다.

사용자 에이전트 문자열 및 기타 공손 관련 항목은 다음과 같습니다.

  1. 다른 사람이 사용하고 있지 않은 이름을 선택하십시오. "Goofybot"을 사용하면 괜찮을 것 같습니다. 그러나 나는 그것을 확인하기 위해 그것을 확인했다.

  2. 사용자 에이전트 문자열에는 봇에 대한 자세한 정보에 대한 링크가 포함되어야합니다. 예를 들어, 문자열은 "MLBot (www.metadatalabs.com/mlbot)"입니다.

  3. 누군가 "Goofybot"을 검색하면 검색 결과에서 해당 페이지가 높은 것이 좋습니다 (바람직하게는 우선).

  4. 봇에 대한 페이지는 정보를 사용하는 대상, 크롤링 할 IP 주소 및 봇 관련 문제에 대해 사람들이 연락 할 수있는 방법을 포함해야합니다.

  5. "고객은 항상 옳다"라는 철학을 사용하여 질문이나 불만에 신속하게 응답해야합니다. 봇이이 사람이 불평하는 문제를 일으킨다면 아마도 아무도 불평하지 않은 12 곳의 다른 사이트에서 문제를 일으켰을 것입니다. 그들은 문제를 보지 못했거나 IP 주소를 차단했습니다.

  6. 봇이 특정 도메인 이름에 액세스하지 못하도록 시설에 빌드해야합니다. 어떤 사람들은 당신이 전혀 크롤링하기를 원하지 않으며 .htaccess에서 robots.txt를 만들거나 접근 할 수있는 기술적 인 능력이 없습니다. 이 기능을 통해 MLBot에 문제가 발생하여 죄송합니다. 사이트를 다시 크롤링하지 않도록 지시했습니다. " 놀랍지 않게도 사람들을 매우 빨리 진정시킵니다.

  7. robots.txt를 아직 존중하지 않으면 그렇게하십시오. robots.txt를 무시하는 것보다 더 나쁜 평판을 얻는 것은 없습니다.

와. 예상보다 오래 걸렸습니다. 지난 4 년 동안, 나는 위에서 언급 한 실수들과 그 밖의 다른 것들을 모두 만들었습니다. 그러나 우리가하고있는 일에 대해 공개하고 불만을 제기하기 전에 실수에 대한 정보를 게시하는 것을 포함하여 정직하게 의사 소통을하는 경우 대부분의 웹 마스터는 우리를 훌륭한 인터넷 시민으로 간주합니다.


(위의 그 예를 링크 metadatalabs.com/mlbot ( "공사")) 그냥 쇼 ...
starbeamrainbowlabs

2
대답은 2010 년 메타 연구소로 작성되었다 @starbeamrainbowlabs은 2012 년에 종료
짐 Mischel에게

그래도 대안이 있습니까?
starbeamrainbowlabs 11

@starbeamrainbowlabs 대체 대안은 무엇입니까?
Jim Mischel

해당 메타 데이터 랩 페이지에서 링크 된 모든 페이지가 표시되었습니다. 나는 그것을 볼 수 있듯이, 나는 다른 제안 할 수 없습니다 P를
starbeamrainbowlabs

8

Mozilla / 2.0 및 Mozilla / 5.0은 모두 Mozilla 브라우저에 대한 참조입니다. 크롤러를 사용하는 경우가 많지만 의미가 없어졌지만 크롤러를 일반 브라우저로 탐색하는 임의의 사용자처럼 크롤러를 처리하도록 사이트에 알려야합니다.

그러나 다음 섹션에서 자신이 누구인지, 왜 크롤링하는지에 대한 페이지로 연결되는 URL을 포함시키는 것이 좋은 예입니다. Jeeves에게 이름만으로 도망 칠 수는 있지만 URL을 포함시켜야합니다.

예 :

Mozilla/5.0 (compatible; http://example.org/)

이를 통해 웹 관리자는 자신의 사이트를 크롤링하는 이유를 파악하고 크롤러의 동작 방식에 문제가있는 경우에도 연락 할 수 있습니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.