참고 :이 답변은 점점 구식입니다.
Internet Archive의 웹 컬렉션에 가장 큰 기여를 한 사람은 Alexa Internet입니다. Alexa가 목적을 위해 크롤링하는 자료는 몇 달 후에 IA에 기증되었습니다. 질문에 언급 된 허용 안 함 규칙을 추가해도 크롤링에는 영향을 미치지 않지만 Wayback은 '역사적으로'존중합니다 (액세스 거부, 자료는 여전히 아카이브에 있음-자료를 실제로 보관하려면 Alexa의 로봇을 제외해야 함) 인터넷 보관소).
Alexa의 크롤링에 영향을 줄 수있는 방법이있을 수 있지만 잘 모르겠습니다.
IA는 자체 크롤러 (Heritrix)를 개발 한 후 자체 크롤링을 시작했지만 크롤링 대상이되는 경향이 있습니다 (그들은 의회 도서관에서 선거 크롤링을 수행하고 프랑스 및 호주 등에서 국가 크롤링을 수행했습니다). Google과 Alexa가 수행하는 지속적인 세계 규모의 크롤링에는 관여하지 않습니다. IA의 최대 크롤링은 20 억 페이지를 크롤링하는 특수 프로젝트였습니다.
이러한 크롤링이 프로젝트의 특정 요소에서 파생 된 일정에 따라 운영되기 때문에, 당신은 그들이 귀하의 사이트를 방문하거나 빈도에 영향을 줄 수없는 경우 가 귀하의 사이트를 방문하십시오.
IA가 사이트를 크롤링하는 방법과시기에 직접 영향을 미치는 유일한 방법은 Archive-It 서비스 를 사용하는 것 입니다. 이 서비스를 사용하면 맞춤 크롤링을 지정할 수 있습니다. 결과 데이터는 궁극적으로 IA의 웹 컬렉션에 통합됩니다. 그러나 이것은 유료 가입 서비스입니다.