전체 웹 사이트를 보관하는 방법?


답변:


12

Wayback Machine 은 이러한 기능을 제공하지 않기 때문에 몇 가지 해결 방법을 찾았습니다.

  1. 먼저, wget예를 들어

    wget -m https://example.com/
    
  2. 그런 다음 curl다운로드 한 모든 페이지를 하나씩 보관 하는 데 사용하십시오 .

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
    

    참고 : 변경할 수 있습니다 .html.php, 또는 파일의 특정 유형을 포함한다.


사이트에서 확장명 (예 : html 또는 php-SE와 같은 설정)을 사용하지 않는 경우 명령을 어떻게 적용합니까?
db

2
당신은 변경할 수 있습니다 -name "*.html"하는 -type f모든 파일을 포함 할 수 있습니다.
kenorb

이것은 쿼리 매개 변수와 어떻게 작동합니까?
Mithical

6

소규모 웹 사이트를 보관하려면 보관 팀이 웹 사이트 크롤링을 요청할 수있는 IRC 봇인 ArchiveBot을 유지 관리합니다 . 보관 팀은 크롤링 된 페이지를 인터넷 보관함의 웨이 백 머신에 제출합니다.


이것은 매우 도움이됩니다.
Guy

1

Wayback Machine은 전체 사이트를 제출하는 방법을 제공하지 않으며 이미 찾은 단일 페이지 만 제공합니다. 이것은 Wayback Machine FAQ 의 몇 가지 요점에서 다루어집니다 .

Wayback Machine에 페이지를 추가 할 수 있습니까?

https://archive.org/web 특정 페이지를 한 시간을 절약하기 위해 "저장 페이지 이제"기능을 사용할 수 있습니다. 현재 크롤링에 URL을 추가하거나 두 페이지 이상을 저장하지는 않습니다. 여러 페이지, 디렉토리 또는 전체 사이트를 저장하지 않습니다 .

Wayback Machine에 내 사이트를 포함 시키려면 어떻게해야합니까?

보관 된 웹 데이터의 대부분은 자체 크롤링 또는 Alexa Internet의 크롤링에서 제공됩니다. 어느 조직도 "지금 내 사이트를 크롤링하지 않습니다!" 제출 과정 . 인터넷 보관소의 크롤링은 다른 사이트와 잘 연결된 사이트를 찾는 경향이 있습니다. 웹 사이트를 찾는 가장 좋은 방법은 웹 사이트가 온라인 디렉토리에 포함되어 있고 유사한 / 관련 사이트가 귀하에게 연결되도록하는 것입니다.


1
이것은 질문에 대한 답변이 아닙니다. 공식적인 방법이 없기 때문에 작업을 수행하는 것이 불가능하지 않습니다. 사실, 링크를 재귀 적으로 추가하는 스크립트를 작성하는 것은 매우 쉽습니다.
db

@db, kenorb의 대답 은 당신이 요구 한 것으로 보입니다. 덧붙여서, The WaybackMachine이 지금 한 페이지를 캡처하기를 원했기 때문에이 답변은 현재 나에게 더 유용합니다.
cp.engr

1

archive.org 의이 기사 는 또한 원하는만큼 자주 크롤링하는 유료 서비스를 제안합니다.

  1. Archive-It 계정 가입

Archive-It 은 Internet Archive에서 제공하는 가입 서비스로 기술 전문 지식 없이도 크롤링 프로젝트를 직접 실행할 수 있습니다. 크롤링 대상 및 크롤링 빈도를 알려주고 크롤링을 실행하고 결과를 Wayback Machine에 넣습니다.

이것은 아마도 당신이 추구하는 것이 아니지만 일부 비즈니스의 경우이 서비스가 유용 할 수 있습니다. 나는 그것이 archive.org에 자금을 지원하는 데 도움이된다고 가정합니다. 그렇지 않으면 무료입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.