archive.org Wayback Machine에서 웹 사이트를 다운로드하는 방법은 무엇입니까?


84

주어진 웹 사이트의 모든 파일을 archive.org에서 가져오고 싶습니다. 이유는 다음과 같습니다.

  • 원래 작성자는 자신의 웹 사이트를 보관하지 않았으며 현재 오프라인 상태입니다. 공개 캐시를 만들고 싶습니다
  • 나는 일부 웹 사이트의 원저자이며 일부 내용을 잃어 버렸습니다. 나는 그것을 회복하고 싶다
  • ...

어떻게합니까?

archive.org Wayback Machine이 매우 특별하다는 점을 고려하면 웹 페이지 링크는 아카이브 자체를 가리키는 것이 아니라 더 이상 존재하지 않는 웹 페이지를 가리 킵니다. JavaScript는 클라이언트 측에서 링크를 업데이트하는 데 사용되지만 재귀 wget과 같은 트릭은 작동하지 않습니다.


14
나는 같은 문제에 직면하여 보석을 코딩했습니다. 설치하려면 : gem install wayback_machine_downloader. 매개 변수로 검색하려는 웹 사이트의 기본 URL을 사용하여 wayback_machine_downloader를 실행하십시오. wayback_machine_downloader http://example.com자세한 정보 : github.com/hartator/wayback_machine_downloader
Hartator

3
Ruby를 처음 사용하는 Windows 사용자 (win8.1 64 비트)를위한 단계별 도움말은 다음과 같습니다. 1) rubyinstaller.org/downloads 를 설치 한 다음 "rubyinstaller-2.2.3-x64를 실행합니다. .exe "2) zip 파일 github.com/hartator/wayback-machine-downloader/archive/…를 다운로드했습니다. 3) 내 컴퓨터에서 zip 압축을 풉니 다. 4) Windows 시작 메뉴에서"Ruby를 사용하여 명령 프롬프트 시작 "검색 계속)
Erb

3
5) github.com/hartator/wayback_machine_downloader 의 지침을 따르십시오 (예 :이 "gem install wayback_machine_downloader"를 프롬프트에 복사하여 붙여 넣으십시오. Enter 키를 누르면 프로그램이 설치됩니다. "사용"지침을 따르십시오). 6) 일단 당신의 웹 사이트가 점령되면 C : \ Users \ YOURusername \ websites에 파일을 찾을 것입니다
Erb

답변:


64

나는 사이트를 다운로드하는 다른 방법을 시도했지만 마침내 Hartator가 언급 한 Wayback Machine Downloader를 찾았습니다. 시간을 절약하기 위해 wayback_machine_downloader gem을 별도의 답변으로 추가하기로 결정했습니다.

에서 사이트 http://www.archiveteam.org/index.php?title=Restoring은 archive.org에서 다운로드 할 수있는이 방법을 나열

  • Wayback Machine Downloader , Wayback Machine 에서 웹 사이트를 다운로드하는 Ruby의 작은 도구. 무료 및 오픈 소스. 내 선택!
  • 워릭 -메인 사이트가 다운 된 것 같습니다.
  • Wayback Downloader- Wayback Machine에서 사이트를 다운로드하고 Wordpress 용 플러그인을 추가하는 서비스입니다. 무료가 아닙니다.

: 나는 또한 등, 링크를 조정, 자원을 다운로드, PHP에서는, "뒤로 다운로더"를 쓴 gist.github.com/divinity76/85c01de416c541578342580997fa6acf
hanshenrik

@ComicSans, 링크 한 페이지에서 아카이브 팀 잡기 란 무엇 입니까 ??
Pacerier

1
2018 년 10 월 Wayback Machine Downloader는 여전히 작동합니다.
그 브라질 사람

@Pacerier는 Archive Team이 제작 한 WARC 파일을 의미합니다 (보통 인터넷 아카이브의 웨이 백 머신에 공급 됨). archive.org/details/archiveteam
Nemo

13

이것은와 bash 쉘 스크립트를wget 사용하여 수행 할 수 있습니다 .

아이디어는 웨이 백 머신의 일부 URL 기능 을 사용하는 것입니다.

  • http://web.archive.org/web/*/http://domain/*저장된 모든 페이지를 http://domain/재귀 적으로 나열합니다 . 웹 페이지에서 링크를 감지하는 휴리스틱을 다운로드하고 피하기 위해 페이지 색인을 구성하는 데 사용할 수 있습니다. 각 링크마다 첫 번째 버전과 마지막 버전의 날짜도 있습니다.
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pagehttp://domain/pageYYYY 년 의 모든 버전을 나열합니다 . 해당 페이지 내에서 버전에 대한 특정 링크를 찾을 수 있습니다 (정확한 타임 스탬프 포함)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pagehttp://domain/page주어진 타임 스탬프에서 수정되지 않은 페이지 를 반환합니다 . 통지 ID_ 토큰을.

지정된 도메인에서 모든 것을 다운로드하는 스크립트를 작성하는 기본 사항입니다.


7
대신 API를 사용해야합니다. archive.org/help/wayback_api.php 위키 백과 도움말 페이지는 일반인이 아닌 편집자를위한 것입니다. 따라서이 페이지는 그래픽 인터페이스에 중점을 두는데,이 인터페이스는이 작업에 적합하지 않고 부적절합니다.
니모

URL (예 :)을 가져 와서 "날짜 숫자"끝에 http://web.archive.org/web/19981202230410/http://www.google.com/추가 id_하는 것이 더 쉬울 것입니다 . 그런 다음 같은 것을 얻을 것입니다 http://web.archive.org/web/19981202230410id_/http://www.google.com/.
haykam

1
파이썬 스크립트도 여기에서 찾을 수 있습니다 : gist.github.com/ingamedeo/...을
아메데오 Baragiola을

4

이 목적을 위해 특별히 설계된 도구 인 Warrick이 있습니다 : https://code.google.com/p/warrick/

Memento 프로토콜을 기반으로합니다.


3
내가 이것을 사용하는 한 (2017 년 5 월), archive.is가 보유한 것을 복구하고 archive.org에있는 것을 거의 무시합니다. 또한 Google / Yahoo 캐시에서 문서와 이미지를 가져 오려고하지만 완전히 실패합니다. Google 코드가 종료 된 이후 Warrick이 GitHub에서 여러 번 복제되었습니다. 더 나은 버전이있을 수 있습니다.
기네스 Llewelyn

0

당신은 이것을 쉽게 할 수 있습니다 wget.

wget -rc --accept-regex '.*ROOT.*' START

ROOT웹 사이트의 루트 URL은 어디에 START있고 시작 URL입니다. 예를 들면 다음과 같습니다.

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

STARTURL에 대해서는 웹 아카이브의 줄 바꿈 프레임을 무시해야합니다 . 대부분의 브라우저에서 페이지를 마우스 오른쪽 버튼으로 클릭하고 "이 프레임 만 표시"를 선택할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.