HTTP를 통해 사이트를 리핑해야합니다. 이미지, HTML, CSS 및 JavaScript를 다운로드하고 파일 시스템으로 구성해야합니다.
누구든지 이것을하는 방법을 알고 있습니까?
HTTP를 통해 사이트를 리핑해야합니다. 이미지, HTML, CSS 및 JavaScript를 다운로드하고 파일 시스템으로 구성해야합니다.
누구든지 이것을하는 방법을 알고 있습니까?
답변:
wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com
콘솔에서 실행됩니다.
이렇게하면 사이트를 확보하고 요청 사이에 3 초 동안 기다린 후 다운로드 속도를 제한하여 사이트를 죽이지 않도록하고 브라우저 만 보이도록 사이트를 차단하여 사이트를 차단하지 않습니다. 거머리 방지 메커니즘 사용.
-A
다운로드하려는 파일 형식의 목록을 나타내는 매개 변수에 유의하십시오 .
다른 태그를 사용 -D domain1.com,domain2.com
하여 다른 서버가 있거나 다른 종류의 파일을 호스팅하기 위해 무엇이든 다운로드하려는 일련의 도메인을 나타낼 수도 있습니다 . 파일을 얻지 못한 경우 모든 경우에 대해이를 자동화하는 안전한 방법은 없습니다.
wget
일반적으로 Linux에 사전 설치되어 있지만 다른 Unix 시스템 용으로 간단하게 컴파일하거나 Windows 용으로 쉽게 다운로드 할 수 있습니다. GNUwin32 WGET
이것을 악의가 아닌 선을 위해 사용하십시오.
좋은 무료 솔루션 : HTTrack
HTTrack은 무료 (GPL, libre / free 소프트웨어)이며 사용하기 쉬운 오프라인 브라우저 유틸리티입니다.
인터넷에서 로컬 디렉토리로 월드 와이드 웹 사이트를 다운로드하여 재귀 적으로 모든 디렉토리를 작성하고 HTML, 이미지 및 기타 파일을 서버에서 컴퓨터로 가져옵니다. HTTrack은 원본 사이트의 상대 링크 구조를 정렬합니다. 브라우저에서 "미러링 된"웹 사이트의 페이지를 열기 만하면 마치 온라인에서 보는 것처럼 링크에서 링크로 사이트를 탐색 할 수 있습니다. HTTrack은 기존의 미러링 된 사이트를 업데이트하고 중단 된 다운로드를 재개 할 수도 있습니다. HTTrack은 완전히 구성 가능하며 통합 된 도움말 시스템이 있습니다.
Linux 시스템에서 'wget'이이를 수행합니다.
다른 답변 중 몇 가지 언급했듯이 여러 다른 플랫폼으로 포팅되었습니다.
대부분의 플랫폼에서 사용할 수있는 wget을 사용해야합니다. curl은 문서를 재귀 적으로 요청하지 않으며 wget의 주요 강점 중 하나입니다.
Linux : (일반적으로 배포판에 포함되어 있음) http://www.gnu.org/software/wget/
Windows : http://gnuwin32.sourceforge.net/packages/wget.htm
Mac : http : //www.geekology. co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x/
웹 사이트를 망치지 않도록 요청 사이에 적절한 지연을 설정하고 사이트의 서비스 약관 내에 있는지 확인하십시오.
-아담
실제로 GWLlosa의 게시물에서 내 의견을 따라 방금 GnuWin32가 설치되어 있고 Windows 포트 wget이 포함되어 있는지 확인했습니다.
http://sourceforge.net/projects/gnuwin32/
GnuWin32 provides Win32-versions of GNU tools,
or tools with a similar open source licence.
The ports are native ports, that is they rely
only on libraries provided with any 32-bits
MS-Windows operating system, such as
MS-Windows 95 / 98 / 2000 / NT / XP
나는 몇 년 전에 이것을 사용했고 잘 작동했습니다. Windows 만 해당 예전에는 애드웨어 였지만 더 이상은 아닙니다.
wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com
-p
: 매개 변수는 wget에게 이미지를 포함한 모든 파일을 포함하도록 지시합니다.-e robots=off
: robots.txt 규칙 사이트 무시-U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)"
: 사용자 에이전트 문자열--random-wait
: 블랙리스트에 올라가지 않기--limit-rate=20k
: 파일 다운로드 속도를 제한합니다.-b
: 로그 아웃 한 후 wget을 계속합니다.
-c
하거나 --continue
프로세스를 다시 시작해야합니다.
IDM 사이트 그래버 가 최고의 솔루션 이라고 생각합니다. Teleport pro도 있습니다.
무료 다운로드 관리자 는 완전한 웹 사이트도 다운로드 할 수 있습니다.
윈도우 만 생각합니다.