archive.org 봇을 올바르게 허용하는 방법은 무엇입니까? 언제 상황이 바뀌 었습니까?

10

검색 엔진에서 색인을 생성하지 않으려는 웹 사이트가 있지만 archive.org에서 영원히 보존하고 싶습니다. 그래서 robots.txt이것으로 시작합니다.

User-agent: *
Disallow: /

오늘날 archive.org 에 따르면 robots.txt봇을 허용 하려면 다음을 추가해야합니다 .

User-agent: ia_archiver
Disallow:

그러나 나는 이미 2 년 전에 그들이 지시 한 것을 수행했으며 적어도 다음을 추가했습니다.

User-agent: archive.org_bot
Disallow:

그런 다음 위 의 두 개와 다른 것을 추가해야한다고 주장하는 또 다른 출처 가 있습니다 Disallow.

User-agent: ia_archiver-web.archive.org 
Disallow:

봇이 사이트를 보관 하지 못하게 하려면 넣어야 Disallow: /합니다 .

IA 봇에 변화가 있습니까? 그렇다면 언제?

권장되는 방법은 무엇입니까? 지금 당장 세 가지를 모두 허용하고 IA가 앞으로 봇 이름을 다시 변경하지 않기를 바랍니다.

web-crawlers robots.txt internet-archive

— kqw
소스

ia_archiver 만 알고있었습니다. 다른 사람들은 놀랍습니다. 이것에 대한 링크가 있습니까? 내가 묻는 이유는 archive.org가 내 사이트를 방문하여 IP 주소로 차단해야했기 때문입니다. 당신은 또한 당신이 언급 마십시오 archive.org을 허용하지만 그것을 차단에 대해 이야기하고 싶습니다. 나는 이것에 대해 더 명확하게하고 싶습니다. 링크는 우리 모두를 도울 수 있습니다. 미리 감사드립니다!

— closetnoc

질문을 업데이트했습니다. 더 명확 해지기를 바랍니다. 작은 버전 :이 사이트에 검색 엔진 봇을 원하지 않고 archive.org 봇을 원합니다. 그러나 아마도 대부분의 사람들이 찾고있는 질문을 되돌려 야할까요?

— kqw

실제로, 당신이 이것들 중 어느 것도 사용하지 않는다면, 당신은 담요 진술로 차단하지 않는다는 것을 제공하는 archive.org를 허용하고 있습니다.

— closetnoc

"ia_archiver"만 사용하면 "ia_archiver-web.archive.org"도 차단해야하므로 나중에 필요하지 않은 것 같습니다 (이 봇이 표준을 따르는 경우).

— MrWhite

액세스 로그에 ia-archiver (또는 archive.org_bot) 봇이 보입니까?

— MrWhite

9

업데이트 : 의견에 @KevinFegan이 메모 한대로 문서가 변경되었습니다. 아래 부분은 인터넷 아카이브가 과거 (적어도 2014 년) 어떻게 처리했는지를 설명합니다.

FAQ FAQ Wayback Machine에서 내 사이트 페이지를 제외 시키려면 어떻게해야합니까? 봇이라고 하는 Wayback Machine 에서 문서 제거를 참조하십시오 ia_archiver.

따라서이 기록을 통해 봇은 전체 사이트를 크롤링 할 수 있습니다.

User-agent: ia_archiver
Disallow:

— 또는
소스

그룹의 순서는 중요하지 않습니다. 일치 하는 가장 구체적인 (즉, 가장 긴) 사용자 에이전트가 승리합니다. *다른 그룹이 일치하지 때 그룹은 일치합니다.

— MrWhite

@ w3d : 당신이 맞아, 나는이 부분을 제거했다. 정보 주셔서 감사합니다 :)

— unor

1

분명히, 이것은 시간이 지남에 따라 변경되었습니다. 제공 한 FAQ 페이지 와 2017 년 4 월 25 일 의이 Archive.org 블로그 페이지 에서 "ia_archiver"를 찾을 수 없습니다 . Mark Graham은 다음과 같이 말합니다. "ia_archiver"사용자 에이전트는 인터넷 아카이브가 아닌 Alexa Internet에서 사용됩니다.

— Kevin Fegan

@KevinFegan : 통지 해 주셔서 감사합니다! 이름이 포함 된 문서의 보관 된 버전에 연결하기 위해 답변을 업데이트했습니다.

— unor

나는 그들이 의도적으로 일을 복잡하게 만들어 도망 갈 수있는 방법을 좋아합니다!

— Ultralisk

5

여기에는 실제로 두 가지 문제가 있습니다.

의지 robots.txt귀하의 사이트에 허용 안 귀하의 사이트를 크롤링 (블록) 뒤로가.
Will Wayback이 사이트를 크롤링합니다.

포인트 # 1 :
다른 사람들이 말했듯이 robots.txt의 올바른 항목은 다음과 같습니다.

User-agent: ia_archiver
Disallow:

Wayback에서 robots.txt에 대한 변경 사항을 발견하려면 시간이 오래 걸릴 수 있습니다 (아마도 시간이 오래 걸릴 수 있음).

robots.txt사이트에서를 통해 Wayback이 사이트를 크롤링 할 수 있는지 확인하려면 다음 단계를 따르 십시오.

이 URL로 이동 하십시오 : https://archive.org/web/
페이지 상단의 상자에 사이트의 페이지 URL을 입력하고 "Browse History"버튼을 클릭하십시오 .
또는 "지금 페이지 저장"(현재 오른쪽 하단 근처) 아래의 상자에 사이트의 페이지 URL을 입력하고 "Save Page"버튼을 클릭하십시오 .

이 시점에서 다음 세 가지 중 하나가 표시됩니다.

"robots.txt"로 인해 Wayback이 해당 사이트의 페이지에 액세스 할 수 없다는 오류 메시지가 표시됩니다.
사이트의 페이지에 대한 과거 저장 지점의 "달력"이 표시됩니다. 이 경우 Wayback이 사이트 크롤링을 차단하지 않는다는 것을 알고 있습니다.
또는 Wayback에 해당 페이지의 아카이브가 없음을 나타내는 메시지와 페이지를 Wayback에 추가하기위한 링크를 클릭하라는 제안이 표시됩니다. 이 경우에도 Wayback이 사이트 크롤링을 차단하지 않는다는 것을 알고 있습니다.

이제 포인트 # 2의 경우 :

윌 뒤로 귀하의 사이트를 크롤링?

당신은 그냥 있기 때문에 허용 뒤로 귀하의 사이트를 크롤링, (지금까지) 그들이 당신의 사이트를 크롤링 것을 의미하지 않습니다.

Wayback FAQ (강조 추가)에 따르면 :

Wayback Machine에 내 사이트를 포함 시키려면 어떻게해야합니까?

보관 된 웹 데이터의 대부분은 자체 크롤링 또는 Alexa Internet의 크롤링에서 제공됩니다. 어느 조직도 "지금 사이트를 크롤링하지 않습니다!" 제출 과정. Internet Archive의 크롤링 은 다른 사이트와 잘 연결된 사이트를 찾는 경향이 있습니다 . 웹 사이트를 찾는 가장 좋은 방법은 웹 사이트가 온라인 디렉토리에 포함되어 있고 유사한 / 관련 사이트가 사용자에게 연결되어 있는지 확인하는 것입니다.

Alexa Internet은 자체 방법을 사용하여 크롤링 할 사이트를 검색합니다. 무료 Alexa 도구 모음을 설치하고 크롤링하려는 사이트를 방문하여 그들이 알고 있는지 확인하는 것이 도움이 될 수 있습니다.

사이트를 크롤링하는 사람에 관계없이 사이트의 'robots.txt'규칙 및 인 페이지 META 로봇 명령어가 크롤러에게 사이트를 피하도록 지시하지 않아야합니다.

업데이트 : 2017 년 5 월 9 일

다른 사람들은 Archive.org가 더 이상 robots.txt를 존중하지 않음을 나타내는 의견 / 응답을 남겼습니다. 아마도 이것은 "진행중인 작업"일 것이고 결국에는 그럴 것입니다. 그러나 나는이 새로운 행동을 아직 보지 못했습니다.

이에 대한 사례는이 기사에서 나온 것으로 보입니다. Robots.txt : ROBOTS.TXT는의 참고 사항 입니다 archiveteam.org. 이 페이지에는 "Robots.txt"에 대해 언급해야 할 내용이 거의 없지만 Archive.org 가 더 이상 robots.txt를 인정하지 않는 곳 은 없습니다.

또한 노트의 : 문서에 호스팅되는 것을 archiveteam.org가장 확실히하지 않은, archive.org그리고 아니에요 확인 사이 (공식) 관계가 archive.org하고 archiveteam.org.

사실,이 페이지에서 아카이브 팀에 대한이 사이에 구별을 선언하는 것 및 (강조 추가)archive.org archive.orgarchiveteam.org

2009 년에 설립 된 Archive Team ( archive.org Archive-It Team 과 혼동하지 말 것 )은 역사 및 디지털 유산을 위해 빠르게 죽어 가거나 삭제 된 웹 사이트의 사본을 저장하는 데 전념하는 불량 보관 단체입니다. ...

어쨌든, 나는 이것을 시도하기로 결정했고, 적어도 현재로서는 Archive.org STILL이 robots.txt를 존중 한다는 것을 알았 습니다.

eBay에서 임의의 항목을 찾았습니다. 품목 번호 : 131795294232
클릭하면 판매 품목을 볼 수 있습니다.

"판매 된 품목"페이지가 열립니다. http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 클립 보드에 링크를 복사하십시오.
고토 web.archive.org , 이베이에서 링크를 붙여 넣습니다.
당신은 그 볼 archive.org을 나타냅니다 "페이지 인해 robots.txt에에 표시 할 수 없습니다."

따라서 현재로서는 확신이 없지만 잘못된 것으로 판명되고 싶습니다 ... 사실이라면 좋을 것입니다.

— 케빈 페건
소스

robots.txt를 사용하여 archive.org를 잠그면 더 이상 작동하지 않습니다.

— wortwart

@wortwart-그렇다면 좋을 것입니다 (내 답변에 추가 한 업데이트 참조). 이 정보에 대한 링크가 있습니까?

— Kevin Fegan

물론 : blog.archive.org/2017/04/17/… "몇 달 전에 우리는 미국 정부와 군사 웹 사이트에서 robots.txt 파일을 언급하지 않았습니다. "

— Wortwart

4

2017 업데이트

보관 봇은 이제 robots.txt를 신경 쓰지 않습니다.

실제로 차단 하려면이 페이지에 따라 이메일을 보내 거나 htaccess를 통해 IP 주소를 차단 하십시오 .

— 고 일로
소스

2

내 대답에 월 2017 년 업데이 트를 참조하십시오 제대로 (DIS)가 archive.org 봇을 허용하는 방법 ...? . 보관 봇 은 정부 웹 사이트를 제외하고 robots.txt 파일을 계속 관리합니다. 언급 한 기사는 www.archiveteam.org에 있으며 Archive.org와 관련이 없습니다. --->

— Kevin Fegan

---> 해당 페이지에는 "Robots.txt"에 대해 언급해야 할 내용이 거의 없지만 Archive.org가 더 이상 robots.txt를 존중하지 않는다는 언급은 없습니다. 관련 Archive.org 기사는 다음과 같습니다. 검색 엔진 용 Robots.txt는 웹 아카이브에 적합하지 않습니다 . "몇 달 전 우리는 미국 정부 및 군용 웹 사이트에서 robots.txt 파일을 언급하는 것을 중단했습니다. (...) 이제 더 광범위하게 수행하려고합니다."

— Kevin Fegan

예. 이제 아카이브는 제거 요청을 완전히 무시합니다.

— Ultralisk

3

robots.txt ia_archiver "/"를 사용하여 항목을 허용하지 않음은 "영원을 위해 보존하지만 아직 공개적으로는"설명하지 않아도됩니다.

방금 지난 10 년 동안 사이트에 대한 ia_archiver Disallow 항목을 주석 처리하여 빠른 테스트를 수행했습니다. 그런 다음 archive.org/web에서 사이트를 조회 한 후 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 및 2017에서 수집 한 정보를 얻었습니다. 이는 Archive.org가이 기간 동안 다른 사람들이 "아카이브 금지"문구라고 생각한 것을 엄격하게 존중하지 않았으며 단지 아카이브 된 사본을 노출시키는 것이 아니라는 것을 의미합니다.

— 마이크
소스

2

"ia_archiver"는 이제 Alexa에서 사용하고 있으며 (ab) 일부 출처는 1 , 2 입니다.
Archive.org now (2018)는 "robots.txt"를 더 이상 존중하지 않습니다. 3 mil / gov 페이지뿐만 아니라 모든 페이지에도 적용됩니다. 2012 년 이후로 ia-roases robots.txt를 가지고 있고 가지고있는 개인 웹 사이트에서 경험 한 것처럼; 그리고 나는 갑자기 그것이 몇 년 동안 그들에 의해 크롤링되고 저장되었다는 것을 알았고 이제는 전체 역사가 보입니다. 배신당하는 느낌입니다. > :-(

— 칼
소스

1

robots.txt방법을 시도했지만 작동하지 않았습니다. 그래서 나는 이메일 info@archive.org로 웹 사이트에 연락했다.

여보세요,

아카이브에서 내 개인 웹 사이트 dimitarnestorov.com을 제거 할 수 있습니까?

감사!

디미타르

그리고 나는 다음과 같은 대답을 얻었습니다.

여보세요,

인터넷 아카이브는 Wayback Machine (web.archive.org)에서 웹 사이트를 제외 할 수 있지만, 우선 다음 중 하나를 수행하여 귀하가 dimitarnestorov.com의 사이트 소유자 또는 컨텐츠 작성자임을 확인하도록 도와주십시오.

(참고 :이 옵션 중 일부는 이전 Wayback Machine 캡처에있는 컨텐츠 및 / 또는 지정된 기간과 관련된 문서를 참조 할 수 있습니다.)

사이트의 현재 버전에 요청을 게시하고 링크를 보내주십시오.

사이트에 나와있는 기본 이메일 연락처에서 요청을 보내어 찾을 수있는 위치를 알려주십시오 (있는 경우).

등록자 이메일 (WHOIS 조회에서 공개적으로 볼 수있는 경우 링크를 통해 볼 수있는 경우) 또는 사이트에 나열된 웹 마스터 이메일에서 요청을 보냅니다.

귀하가 귀하가 사이트의 소유자 또는 귀하가 제외하고자하는 컨텐츠의 저자임을 식별하는 방식으로 귀하의 개인 정보 (이름, 연락 지점, 자기 자신의 이미지)가 사이트에 나타나는 위치를 알려주십시오. 유효한 사진이있는 신분증을 스캔하여 신원을 확인합니다 (생년월일, 주소 또는 전화 번호와 같은 민감한 정보를 수정할 수 있음).

도메인 소유자로서 귀하에게 주소를 지정한 호스팅 회사 또는 등록 기관으로부터의 커뮤니케이션을 당사에 전달합니다.

(참고 : 일반적으로 다른 사람의 이름 / 사용자 이름 및 / 또는 사이트 / 페이지 / 계정 사이의 하이퍼 링크 / 리디렉션만으로는 아카이브를 제외하기에 충분하지 않습니다.)

사용 가능한 옵션이없는 경우이 이메일에 회신하여 알려주십시오.

아카이브를 최대한 보존하는 데 도움을 주시면 감사하겠습니다. 따라서 나머지 아카이브를 사용할 수 있도록 우려 할 특정 URL 또는 디렉토리 만 있으면 알려주십시오.

아시다시피 Internet Archive는 비영리 디지털 라이브러리로 Wayback Machine을 통해 인터넷에 자유롭게 액세스 할 수있는 기록을 유지하려고합니다. 아카이브의 자료는 인터넷 아카이브에서 상업적 이익을 위해 이용되지 않습니다.

인터넷 자료실 팀

wayback-removal-request.html다음 내용으로 만들었습니다 (유효한 HTML조차도 아님).

<p>Hello,</p>

<p>Can you remove my website from the Wayback Machine?</p>

<p>Thanks!</p>
<p>Dimitar</p>

그것을 업로드하고 웹 페이지를 사용할 수있는 URL로 이메일에 답장을 보낸 후 나중에 다음과 같은 응답을 받았습니다.

여보세요,

아래 이메일에서 참조 된 사이트 / URL은 이제 모든 과거 캡처와 관련하여 http://www.archive.org 의 Wayback Machine에서 제외되도록 제출되었습니다 .

dimitarnestorov.com

프로세스의 자동화 된 부분이 코스를 실행하고 변경 사항이 적용 되려면 최대 하루가 소요됩니다.

인터넷 자료실 팀

몇 시간 후에 웹 사이트가 삭제되었습니다.

— 디미타르 네스 토 로프
소스