전체 웹 사이트를 다운로드하려면 어떻게합니까?


81

전체 사이트 (하위 사이트 포함)를 다운로드하고 싶습니다. 이를위한 도구가 있습니까?


1
정확히 무엇을 달성하려고합니까? 질문의 제목과 내용은 관련이 없으며 내용은 구체적이지 않습니다.
RolandiXor

NB는 링크를 따라 가기 만하면 (예 : --convert-linkswget 에서 사용 ) 양식을 제출하여 공개 된 사이트 만 공개하지 않습니다.
Steven

답변:


140

여기 에서 예제 10을 시도 하십시오 .

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
  • –mirror : 미러링에 적합한 옵션을 켭니다.

  • -p : 주어진 HTML 페이지를 올바르게 표시하는 데 필요한 모든 파일을 다운로드하십시오.

  • --convert-links : 다운로드 후 로컬보기를 위해 문서의 링크를 변환하십시오.

  • -P ./LOCAL-DIR : 모든 파일과 디렉토리를 지정된 디렉토리에 저장하십시오.

특정 페이지 만 다운로드 할 수있는 방법이 있습니까 (예 : 여러 HTML 문서에 분산 된 기사의 여러 부분)?
don.joey

@Private 네, 파이썬이나 다른 것을 사용하여 페이지를 얻는 것이 더 쉽지만 (레이아웃 / URL에 따라 다름). 페이지의 URL이 지속적으로 증가하거나 페이지 목록이 있으면 bash 스크립트에서 wget을 사용할 수 있습니다.
Vreality

2
--wait=seconds사이트에보다 친숙해 지려면 이 인수를 사용하는 것이 좋습니다. 검색 사이에 지정된 시간 (초) 동안 대기합니다.
belacqua

위의 작동하지만 joomla의 경우 매개 변수화 된 URL이 로컬로 연결되지 않은 파일을 만듭니다. 나를 위해 일한 사람은 여기에서 wget -m -k -K -E your.domain.com 입니다 : vaasa.hacklab.fi/2013/11/28/…
M.Hefny

1
또한 여기--no-parent 에서 가져온 "상위 디렉토리로 올라가지 마십시오" .
Daniel

38

오프라인 모드에서 웹 사이트를 복사하는 Linux 용 HTTrack

httrack 은 당신이 찾고있는 도구입니다.

HTTrack을 사용하면 인터넷에서 로컬 디렉토리로 월드 와이드 웹 사이트를 다운로드하여 모든 디렉토리를 재귀 적으로 구축하고 HTML, 이미지 및 기타 파일을 서버에서 컴퓨터로 가져올 수 있습니다. HTTrack은 원본 사이트의 상대 링크 구조를 정렬합니다.


7

함께 wget하면 전체 웹 사이트를 다운로드 할 수 있습니다, 당신은 사용해야 -rA의 스위치를 재귀 다운로드합니다. 예를 들어

wget -r http://www.google.com

6

WEBHTTRACK WEBSITE COPIER 는 오프라인 검색을 위해 전체 웹 사이트를 하드 디스크에 다운로드 할 수있는 편리한 도구입니다. 우분투 소프트웨어 센터를 시작하고 따옴표없이 "webhttrack 웹 사이트 복사기"를 검색 창에 입력하십시오. 소프트웨어 센터에서 시스템으로 선택하여 다운로드하십시오. laucher 또는 시작 메뉴에서 webHTTrack을 시작하십시오. 여기에서 사이트 다운로드를위한이 훌륭한 도구를 즐길 수 있습니다


3

하위 도메인, 즉 하위 사이트에 대해서는 잘 모르지만 wget을 사용하여 전체 사이트를 확보 할 수 있습니다. 이 수퍼 유저 질문을 살펴보십시오 . -D domain1.com,domain2.com단일 스크립트에서 다른 도메인을 다운로드 하는 데 사용할 수 있다고 말합니다 . 이 옵션을 사용하여 하위 도메인을 다운로드 할 수 있다고 생각합니다.-D site1.somesite.com,site2.somesite.com


1

나는 Burp를 사용 합니다. 스파이더 도구는 wget보다 훨씬 지능적이며 필요한 경우 섹션을 피하도록 구성 할 수 있습니다. Burp Suite 자체는 테스트를 돕는 강력한 도구 모음이지만 스파이더 도구는 매우 효과적입니다.


1
Windows 만 트림하지 않습니까? Burp에 대한 비공개 소스 라이센스 계약도 상당히 무겁습니다. 가격 태그는 말할 것도없고 $ 299.00 :
Kat Amsterdam

라이센스 : 경고 : BURP SUITE FREE EDITION은 보안 결함을 테스트하도록 설계되었으며 기능의 특성으로 인해 시스템을 대상으로 손상을 줄 수 있습니다. 보안 결함에 대한 테스트는 본질적으로 일부 취약한 대상에서 문제를 일으킬 수있는 비표준 방식의 대상과 상호 작용합니다. 소프트웨어를 사용할 때주의를 기울여야하며, 사용하기 전에 모든 문서를 읽어야하며, 사용하기 전에 대상 시스템을 백업해야하며, 손상 위험이없는 생산 시스템 또는 기타 시스템에서 소프트웨어를 사용하지 않아야합니다. .
Kat Amsterdam

가격표는 놀랍도록 저렴합니다. 광범위한 보안 테스트를 위해 구매하는 것이 좋습니다. 그리고 어떤 경우에는 AppScan보다 더 안전하고 원하는대로 정확하게 테스트하도록 구성하는 것이 매우 쉽습니다 :-)
Rory Alsop

1
@KatAmsterdam 특히 호환성 질문에 관해서 : Wikipedia에 따르면 Burp Suite는 Java 응용 프로그램이므로 Ubuntu에서 정상적으로 실행 되어야 합니다.
Eliah Kagan

Kat-다양한 Linux 버전에서 잘 작동합니다. 라이센스 경고는 보안 평가에 사용할 수있는 모든 도구와 동일합니다.
Rory Alsop

1

전체 웹 사이트 명령을 다운로드 할 수 있습니다.

wget -r -l 0 website

예 :

wget -r -l 0 http://google.com

이 명령의 작동 방식을 설명해 주시겠습니까? 그것은 무엇입니까?
Kaz Wolfe

0

속도가 문제가된다면 (그리고 서버의 복지가 아닌 경우), wget 처럼 작동 하지만 여러 페이지를 병렬로 다운로드 할 수 있는 puf 를 시도 할 수 있습니다 . 그러나 완제품이 아니며 유지 보수 및 끔찍하게 문서화되지 않았습니다. 여전히 아주 작은 파일이 많은 웹 사이트를 다운로드하려면이 옵션이 적합 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.