기본적으로 HTML 페이지, 그림 및 소리가 많은 서버에 사이트가 있습니다.
해당 서버의 비밀번호를 잊어 버렸으며 거기에 저장된 모든 것을 가져와야합니다. 한 페이지 씩 이동하여 모든 것을 저장할 수 있지만 사이트에 100 페이지 이상이 있습니다.
OSX를 사용하고 있습니다. 사용하려고했지만 wget
서버가 차단하고 있다고 생각합니다.
해당 콘텐츠를 얻는 데 사용할 수있는 대안이 있습니까?
기본적으로 HTML 페이지, 그림 및 소리가 많은 서버에 사이트가 있습니다.
해당 서버의 비밀번호를 잊어 버렸으며 거기에 저장된 모든 것을 가져와야합니다. 한 페이지 씩 이동하여 모든 것을 저장할 수 있지만 사이트에 100 페이지 이상이 있습니다.
OSX를 사용하고 있습니다. 사용하려고했지만 wget
서버가 차단하고 있다고 생각합니다.
해당 콘텐츠를 얻는 데 사용할 수있는 대안이 있습니까?
답변:
서버가 wget을 차단하는 경우 http 헤더의 "User-agent :"필드를 기준으로 서버를 처음으로 알 수있는 유일한 방법이므로 wget을 차단하는 것입니다. IP를 차단할 수도 있습니다.이 경우 다른 소프트웨어를 사용하면 도움이되지 않거나 요청이 얼마나 빠른지에 따라 자동화를 식별하는 체계가 있습니다 (실제 사람들은 3.2 초 안에 100 페이지를 탐색하지 않기 때문에) . 나는 그 일을하는 사람에 대해 들어 본 적이 없지만 가능합니다.
또한 wget 속도를 늦추는 방법에 대해서는 들어 보지 못했지만 user-agent 필드를 스푸핑하는 방법이 있습니다.
wget --user-agent=""
Man 페이지에 따르면 "User-agent :"는 필수 항목이 아니기 때문에 완전히 삭제됩니다. 서버가 마음에 들지 않으면 --user-agent="Mozilla/5.0"
충분할 것입니다.
물론 "서버가 차단한다고 생각하는 이유"를 더 잘 설명하면 도움이 될 것입니다. wget가 아무 말이나 시간 초과합니까?
wget
검색어 간 대기, 다운로드 속도 또는 요금 제한을위한 여러 가지 옵션이 있습니다. info
자세한 내용 은 페이지를 확인 하십시오.
나는 보통 httrack
사이트에서 웹 컨텐츠를 다운로드 / 미러링하는 데 사용합니다.
$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0
실행 후에는 로컬 및 탐색 가능한 디렉토리 구조가 남습니다. 예를 들면 다음과 같습니다.
$ ls -l
total 304
-rw-r--r-- 1 saml saml 4243 Aug 17 10:20 backblue.gif
-rw-r--r-- 1 saml saml 828 Aug 17 10:20 fade.gif
drwx------ 3 saml saml 4096 Aug 17 10:20 hts-cache
-rw-rw-r-- 1 saml saml 233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r-- 1 saml saml 1517 Aug 17 10:20 hts-log.txt
-rw------- 1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r-- 1 saml saml 5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml 4096 Aug 17 10:21 2011.example.com
다운로드하면 다음과 같은 유형의 출력이 표시됩니다.
Bytes saved: 21,89KiB Links scanned: 12/45 (+4)
Time: 2s Files written: 4
Transfer rate: 2,65KiB/s (2,65KiB/s) Files updated: 1
Active connections: 1 Errors: 7
Current job: parsing HTML file (57%)
request - 2011.example.com/cgi-bin/hostnames.pl 0B / 8,00KiB
배경 및 / 또는 중단 된 후 나중에 다시 시작할 수 있습니다. 이것은 기능면에서 빙산의 일각에 불과합니다. 다운로드를 설정하고 진행 상황을 모니터링하는 GUI도 있습니다.
httrack
웹 사이트 와 인터넷 검색 에 대한 광범위한 문서가 있습니다 .