"Disallow /"외에 인터넷 아카이브를 제어 할 수 있습니까?

사이트에서 Internet Archive 아카이브를 제어하는 메커니즘이 있습니까? 추가 할 수있는 모든 페이지를 허용하지 않는 것으로 알고 있습니다 .

User-agent: ia_archiver
Disallow: /

봇에게 한 달에 한 번 또는 일년에 한 번 내 사이트를 크롤링하고 싶다고 말할 수 있습니까?
자산을 가져 오지 않아 사이트 / 페이지가 올바르게 보관되지 않거나 보관되지 않습니다. 인터넷 아카이브 봇에게 사이트를 가져갈 때 필요한 자산을 알려주는 방법이 있습니까?

cache internet-archive

— Artlung
소스

나는 또한 이것에 대한 답변에 매우 관심이 있습니다. +1 :)

— Tim Post

— unforgettableidSupportsMonica

답변:

참고 :이 답변은 점점 구식입니다.

Internet Archive의 웹 컬렉션에 가장 큰 기여를 한 사람은 Alexa Internet입니다. Alexa가 목적을 위해 크롤링하는 자료는 몇 달 후에 IA에 기증되었습니다. 질문에 언급 된 허용 안 함 규칙을 추가해도 크롤링에는 영향을 미치지 않지만 Wayback은 '역사적으로'존중합니다 (액세스 거부, 자료는 여전히 아카이브에 있음-자료를 실제로 보관하려면 Alexa의 로봇을 제외해야 함) 인터넷 보관소).

Alexa의 크롤링에 영향을 줄 수있는 방법이있을 수 있지만 잘 모르겠습니다.

IA는 자체 크롤러 (Heritrix)를 개발 한 후 자체 크롤링을 시작했지만 크롤링 대상이되는 경향이 있습니다 (그들은 의회 도서관에서 선거 크롤링을 수행하고 프랑스 및 호주 등에서 국가 크롤링을 수행했습니다). Google과 Alexa가 수행하는 지속적인 세계 규모의 크롤링에는 관여하지 않습니다. IA의 최대 크롤링은 20 억 페이지를 크롤링하는 특수 프로젝트였습니다.

이러한 크롤링이 프로젝트의 특정 요소에서 파생 된 일정에 따라 운영되기 때문에, 당신은 그들이 귀하의 사이트를 방문하거나 빈도에 영향을 줄 수없는 경우 가 귀하의 사이트를 방문하십시오.

IA가 사이트를 크롤링하는 방법과시기에 직접 영향을 미치는 유일한 방법은 Archive-It 서비스 를 사용하는 것 입니다. 이 서비스를 사용하면 맞춤 크롤링을 지정할 수 있습니다. 결과 데이터는 궁극적으로 IA의 웹 컬렉션에 통합됩니다. 그러나 이것은 유료 가입 서비스입니다.

— 크리스
소스

IA가 자체 크롤링을 수행하는 것에 대한 귀하의 의견은 2011 년에 사실이며 2016 년에는 더 이상 사실이 아닙니다.

— Greg Lindahl 2016 년

@GregLindahl이 질문에 대한 업데이트 된 답변을 추가 할 수 있습니다.

— Stephen Ostermiller

대부분의 검색 엔진은 "Crawl-delay"지시문을 지원하지만 IA가 지원하는지 모르겠습니다. 그래도 시도해 볼 수 있습니다.

User-agent: ia_archiver
Crawl-delay: 3600

이는 요청 간 지연을 3600 초 (즉, 1 시간) 또는 매월 ~ 700 건으로 제한합니다.

# 2는 가능하지 않다고 생각합니다. IA 봇은 자산을 적절한 시점에 가져옵니다. 너무 많은 스토리지를 사용하지 않도록 파일 크기 제한이있을 수 있습니다.

— 불만을 품은 염소
소스

@Kris : 크롤링 지연을 설정하면 프록시로이를 수행해야합니다. 페이지가 30 개이고 크롤러에게 하루에 한 번만 방문하도록 지시하면 각 페이지는 대략 30 일마다 새로 고쳐질 수 있습니다. (확실히 보증은 아닙니다.)

— DisgruntledGoat

그러나 이론적으로는 보관 크롤링을 수행하는 경우 이러한 규칙을 따르지 않습니다. 사이트를 하루에 한 번 크롤링하면 특정 시점에 사이트를 제대로 캡처 할 수 없습니다. 이 속성을 준수해야하는 경우 모든 아카이브 크롤링 에서 1-5 분의 상한을 갖습니다.

— Kris

아, 네 요점이 보여

— DisgruntledGoat

방금 최근에 릴리스 된 Heritrix 3을 살펴본 결과 크롤링 지연 지시문에 대한 처리가 추가 된 것을 볼 수 있지만 기본적으로 최대 300 초 (5 분) 만 존중합니다.

— Kris