전체 웹 사이트를 다운로드하려면 어떻게해야합니까?


330

웹 사이트에서 모든 페이지를 다운로드하려면 어떻게합니까?

모든 플랫폼이 좋습니다.



@torthcutt, 나는 너무 놀랐다. 내가 잘못 잘못 생각하지 않는다면, 나의 Wget 대답은 받아 들여지는 대답이었고, 이것은 정착 된 것처럼 보였다. 나는 불평하지 않고있다. 갑자기 새롭게 주목을 받으면 현상금의 가치가 더 커졌다. :피
Jonik

IDM을 시도 했습니까? 수퍼 유저 /questions/14403/... 내 게시물은 묻혀있다. IDM에서 누락 된 것을 찾았습니까?
Lazer

5
@ joe : 누락 된 기능에 대한 세부 정보를 제공하면 도움이 될 수 있습니다 ...
Ilari Kajaste

browse-offline.com 웹 사이트의 전체 트리를 다운로드하여 오프라인에서 찾아 볼 수 있습니다.
Menelaos Vergis

답변:


316

HTTRACK 전체 사이트의 내용을 복사하는 챔피언처럼 작동합니다. 이 도구는 활성 코드 컨텐츠가있는 웹 사이트를 오프라인으로 작동시키는 데 필요한 조각을 잡을 수도 있습니다. 나는 그것이 오프라인으로 복제 할 수있는 물건에 놀란다.

이 프로그램은 당신이 필요로하는 모든 것을 할 것입니다.

행복한 사냥!


6
수년간 이것을 사용해 왔으며 적극 추천합니다.
Umber Ferrule

또한 다운로드 속도를 제한하여 다른 사람의 손해에 너무 많은 대역폭을 사용하지 않도록 할 수 있습니다.
Umber Ferrule

3
이 코드는 서버에서 실행되는 실제 ASP 코드를 복사합니까?
Taptronic

7
@ 최적의 솔루션 : 아니오, 불가능합니다. 서버 나 소스 코드에 액세스해야합니다.
Sasha Chedygov

1
권한이있는 사이트에 대해 httrack 및 wget을 모두 시도한 후에 wget에 의지해야합니다. 이 경우 httrack을 사용할 수 없습니다.
Leo

252

Wget 이러한 종류의 작업을위한 고전적인 명령 줄 도구입니다. 대부분의 유닉스 / 리눅스 시스템과 함께 제공되므로 얻을 수 있습니다. Windows 용 너무. Mac의 경우, 자작 나무 그것을 설치하는 가장 쉬운 방법입니다 ( brew install wget ).

당신은 다음과 같이 할 것입니다 :

wget -r --no-parent http://site.com/songs/

자세한 내용은 다음을 참조하십시오. Wget 매뉴얼 그리고 그것의 예제들 또는 이들:


11
이것보다 더 좋은 대답은 없습니다. wget은 무엇이든 할 수 있습니다 : 3
Phoshi

4
--no-parent 포함에 +1. -r 대신에 --mirror를 사용하십시오. 다른 서버에 대한 링크를 따르지 않으려면 -L / -를 사용하는 것이 좋습니다.
quack quixote

2
또한 httrack.com을 요청한 것처럼 -이 cmd line tool은 ASP를 얻을 수 있습니까? 암호 아니면 그냥 HTML의 렌더링을 얻을까요? 나는 이것을 시험해야한다. 만약 개발자가 조금이라도 걱정이된다면 ...
Taptronic

5
@optimal, 물론 HTML 출력 - 서버가 잘못 구성된 경우에만 코드가 생성됩니다.
Jonik

2
불행히도 그것은 나를 위해 작동하지 않습니다 - CSS 파일에 링크가있는 문제가 있습니다, 그들은 상대적으로 변경되지 않습니다. 즉, 파일에서 다음과 같은 것을 볼 수 있습니다 : & lt; link rel = "stylesheet"type = "text / href = "/ static / css / reset.css"media = "screen"/ & gt; 파이어 폭스를 트릭하여 특정 디렉토리가 루트라고 생각하지 않는 한 로컬에서 제대로 작동하지 않습니다.
gorn

136

wget 사용 :

wget -m -p -E -k www.example.com

설명 된 옵션 :

-m, --mirror            Turns on recursion and time-stamping, sets infinite 
                          recursion depth, and keeps FTP directory listings.
-p, --page-requisites   Get all images, etc. needed to display HTML page.
-E, --adjust-extension  Save HTML/CSS files with .html/.css extensions.
-k, --convert-links     Make links in downloaded HTML point to local files.

6
제안 된 옵션에 대한 설명을 제공하기 위해 +1. (나는 생각하지 않지만 --mirror 매우 자명하다. 맨 페이지의 내용은 다음과 같습니다. " 이 옵션은 재귀 및 타임 스탬프를 사용하고 무한 재귀 수준을 설정하며 FTP 디렉토리 목록을 유지합니다. 현재 -r -N -l inf --no-remove-listing과 동일합니다. ")
Ilari Kajaste

2
미러링 할 도메인의 이름을 가진 폴더에 모든 것을 다운로드하지 않으려면 자신 만의 폴더를 만들고 -nH 옵션을 사용하십시오 (호스트 부분을 건너 뜁니다).
Rafael Bugajewski

2
Auth가 필요한 경우는 어떻습니까?
Val

4
나는 당신의 wget --mirror -p --html-extension --convert-links www.example.com 방금 색인을 다운로드했습니다. 네가 필요하다고 생각해. -r 전체 사이트를 다운로드하십시오.
Eric Brotto

3
트래픽으로 인해 사이트를 죽이는 것에 대해 우려하는 사람들 / 너무 많은 요청은 -w seconds (요청 사이에 수 초간 대기하거나 --limit-rate=amount, 다운로드하는 동안 사용할 최대 대역폭 지정
vlad-ardelean


8

인터넷 다운로드 매니저 옵션이 많은 Site Grabber 유틸리티가 있습니다. 원하는 모든 웹 사이트를 원하는 방식으로 완전히 다운로드 할 수 있습니다.

  1. 다운로드 할 페이지 / 파일의 크기 제한을 설정할 수 있습니다

  2. 방문 할 분기 사이트 수를 설정할 수 있습니다.

  3. 스크립트 / 팝업 / 복제본의 동작 방식을 변경할 수 있습니다.

  4. 해당 도메인에서만 도메인을 지정할 수 있습니다. 필요한 설정을 충족하는 모든 페이지 / 파일이 다운로드됩니다.

  5. 찾아보기를 위해 링크를 오프라인 링크로 변환 할 수 있습니다.

  6. 위의 설정을 선택할 수있는 템플릿이 있습니다.

enter image description here

그러나 소프트웨어는 무료는 아닙니다. 귀하의 필요에 맞는 소프트웨어인지 확인하고, 평가판을 사용하십시오.



5

나는 브라우저가 사용하는 온라인 버퍼링을 다룰 것이다 ...

일반적으로 대부분의 브라우저는 탐색 캐시를 사용하여 웹 사이트에서 다운로드 한 파일을 잠시 동안 보관하므로 정적 이미지와 콘텐츠를 반복해서 다운로드 할 필요가 없습니다. 이것은 상황에 따라 약간의 속도를 낼 수 있습니다. 일반적으로 대부분의 브라우저 캐시는 고정 된 크기로 제한되며 그 한계에 도달하면 캐시에서 가장 오래된 파일이 삭제됩니다.

ISP는 ESPN 및 CNN과 같이 일반적으로 액세스하는 웹 사이트의 사본을 보관하는 캐싱 서버를 사용하는 경향이 있습니다. 이렇게하면 네트워크에있는 누군가가이 사이트를 방문 할 때마다이 사이트를 방문하는 수고를 덜 수 있습니다. 이는 ISP에 대한 외부 사이트에 대한 중복 요청 량을 대폭 절감 할 수 있습니다.




4

나는 수년 동안이 일을하지 않았지만, 여전히 몇 가지 유틸리티가 있습니다. 시도해 볼 수도 있습니다. 웹 스네이크 . 나는 몇 년 전에 그것을 사용했다고 믿는다. 나는 당신의 질문을 읽을 때 바로 그 이름을 기억했습니다.

나는 Stecy와 동의한다. 제발 그들의 사이트를 망치로하지 마십시오. 아주 나쁜.


3

시험 백 스트리트 브라우저 .

무료이며 강력한 오프라인 브라우저입니다. 고속, 멀티 스레딩   웹 사이트 다운로드 및보기 프로그램. 동시에 여러 개의   서버 요구, BackStreet 브라우저는 빨리 전체를 다운로드 할 수있다   웹 사이트 또는 HTML, 그래픽, Java 애플릿,   사운드 및 기타 사용자가 정의 할 수있는 파일을 저장하고   하드 드라이브, 원시 형식 또는 압축 된 ZIP 파일   오프라인으로보기.

enter image description here


3

텔레포트 프로 당신의 목표물이 무엇이든간에 모든 파일을 복사하는 또 다른 무료 솔루션입니다 (또한 더 많은 페이지를 가져올 수있는 유료 버전도 있습니다).


3

DownThemAll 한 번의 클릭으로 특정 웹 페이지에 대한 모든 콘텐츠 (예 : 오디오 또는 비디오 파일)를 다운로드하는 Firefox 추가 기능입니다. 이것은 전체 사이트를 다운로드하지는 않지만 이것은 문제가 찾고있는 종류 일 수 있습니다.


링크 (HTML)와 미디어 (이미지) 만 다운로드 할 수 있습니다.
Ain

3

Linux 및 OS X의 경우 : 움켜 잡다 - 사이트 전체 웹 사이트를 와르 크 파일. 이러한 WARC 파일은 열람 한 또는 추출. grab-site를 사용하면 정규식을 사용하여 건너 뛸 URL을 제어 할 수 있으며 크롤링이 실행 중일 때이를 변경할 수 있습니다. 그것은 또한 광범위한 기본값 집합 정크 URL 무시.

크롤링을 모니터링 할 수있는 웹 대시 보드와 특정 크기 이상의 비디오 내용이나 응답을 건너 뛰는 추가 옵션이 있습니다.


1

유서 깊은 FreeDownloadManager.org 이 기능도 있습니다.

무료 다운로드 관리자는 두 가지 형태로 두 가지 형태로 제공됩니다. 사이트 탐색기 및 사이트 스파이더 :

사이트 탐색기
사이트 탐색기를 사용하면   웹 사이트를 열고 필요한 파일이나 폴더를 쉽게 다운로드하십시오.
HTML 거미
HTML로 전체 웹 페이지 또는 전체 웹 사이트를 다운로드 할 수 있습니다.    거미. 도구는 지정된 파일을 다운로드하도록 조정할 수 있습니다.   확장 기능 만.

사이트 익스플로러는 전체 사이트를 다운로드하려고 시도하기 전에 포함 / 제외 할 폴더를 확인하는 데 유용합니다. 특히 예를 들어 다운로드하지 않으려는 전체 포럼이 사이트에 숨어있는 경우 특히 그렇습니다.




-3

나는 Google 크롬이 데스크톱 장치에서이 작업을 수행 할 수 있다고 생각하며 브라우저 메뉴로 이동하여 웹 페이지 저장을 클릭합니다.

또한 포켓과 같은 서비스는 실제로 웹 사이트를 저장하지 않을 수도 있으므로 링크 썩음에 취약합니다.

마지막으로 웹 사이트의 내용을 복사하면 저작권이 침해 될 수 있습니다.


3
페이지 귀하의 브라우저에서 웹의 많은 중 하나입니다 대지 .
Arjan

@Arjan 내 옵션 노동 집약적 인 것 같아요. 사람들이 단지 한 페이지 만 저장하는 것이 더 일반적이라고 생각합니다. 따라서이 답변은 여기에 온 사람들에게 더 나을 것입니다.
jiggunjer

-3

Firefox는 기본적으로 그렇게 할 수 있습니다 (적어도 FF 42 이상). "페이지 저장"을 사용하십시오.

enter image description here


5
잘못된! 이 질문은 전체 웹 사이트를 저장하는 방법을 묻습니다. Firefox는 그렇게 할 수 없습니다.

1
방법은 한 페이지짜리 사이트 인 경우에만 작동하지만 사이트에 699 페이지가 있으면 어떻게됩니까? 매우 피곤 할거야 ...
Quidam
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.