Wayback Machine을 통해 단일 페이지를 저장하려면 다음으로 이동하십시오.
Wayback Machine 에서 웹 사이트를 재귀 적으로 보관 하려면 어떻게 해야합니까?
과 같은 프로젝트가 wayback-machine-downloader
있지만 웹 사이트를 재귀 적으로 업로드 할 수있는 기능을 찾고 있습니다.
Wayback Machine을 통해 단일 페이지를 저장하려면 다음으로 이동하십시오.
Wayback Machine 에서 웹 사이트를 재귀 적으로 보관 하려면 어떻게 해야합니까?
과 같은 프로젝트가 wayback-machine-downloader
있지만 웹 사이트를 재귀 적으로 업로드 할 수있는 기능을 찾고 있습니다.
답변:
Wayback Machine 은 이러한 기능을 제공하지 않기 때문에 몇 가지 해결 방법을 찾았습니다.
먼저, wget
예를 들어
wget -m https://example.com/
그런 다음 curl
다운로드 한 모든 페이지를 하나씩 보관 하는 데 사용하십시오 .
find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
참고 : 변경할 수 있습니다 .html
에 .php
, 또는 파일의 특정 유형을 포함한다.
-name "*.html"
하는 -type f
모든 파일을 포함 할 수 있습니다.
소규모 웹 사이트를 보관하려면 보관 팀이 웹 사이트 크롤링을 요청할 수있는 IRC 봇인 ArchiveBot을 유지 관리합니다 . 보관 팀은 크롤링 된 페이지를 인터넷 보관함의 웨이 백 머신에 제출합니다.
Wayback Machine은 전체 사이트를 제출하는 방법을 제공하지 않으며 이미 찾은 단일 페이지 만 제공합니다. 이것은 Wayback Machine FAQ 의 몇 가지 요점에서 다루어집니다 .
Wayback Machine에 페이지를 추가 할 수 있습니까?
에 https://archive.org/web 특정 페이지를 한 시간을 절약하기 위해 "저장 페이지 이제"기능을 사용할 수 있습니다. 현재 크롤링에 URL을 추가하거나 두 페이지 이상을 저장하지는 않습니다. 여러 페이지, 디렉토리 또는 전체 사이트를 저장하지 않습니다 .
과
Wayback Machine에 내 사이트를 포함 시키려면 어떻게해야합니까?
보관 된 웹 데이터의 대부분은 자체 크롤링 또는 Alexa Internet의 크롤링에서 제공됩니다. 어느 조직도 "지금 내 사이트를 크롤링하지 않습니다!" 제출 과정 . 인터넷 보관소의 크롤링은 다른 사이트와 잘 연결된 사이트를 찾는 경향이 있습니다. 웹 사이트를 찾는 가장 좋은 방법은 웹 사이트가 온라인 디렉토리에 포함되어 있고 유사한 / 관련 사이트가 귀하에게 연결되도록하는 것입니다.
archive.org 의이 기사 는 또한 원하는만큼 자주 크롤링하는 유료 서비스를 제안합니다.
- Archive-It 계정 가입
Archive-It 은 Internet Archive에서 제공하는 가입 서비스로 기술 전문 지식 없이도 크롤링 프로젝트를 직접 실행할 수 있습니다. 크롤링 대상 및 크롤링 빈도를 알려주고 크롤링을 실행하고 결과를 Wayback Machine에 넣습니다.
이것은 아마도 당신이 추구하는 것이 아니지만 일부 비즈니스의 경우이 서비스가 유용 할 수 있습니다. 나는 그것이 archive.org에 자금을 지원하는 데 도움이된다고 가정합니다. 그렇지 않으면 무료입니다.