wget의 대안


13

기본적으로 HTML 페이지, 그림 및 소리가 많은 서버에 사이트가 있습니다.

해당 서버의 비밀번호를 잊어 버렸으며 거기에 저장된 모든 것을 가져와야합니다. 한 페이지 씩 이동하여 모든 것을 저장할 수 있지만 사이트에 100 페이지 이상이 있습니다.

OSX를 사용하고 있습니다. 사용하려고했지만 wget서버가 차단하고 있다고 생각합니다.

해당 콘텐츠를 얻는 데 사용할 수있는 대안이 있습니까?


서버에 실제로 액세스 할 수있는 경우 단일 사용자 모드로 부팅하고 비밀번호를 복구하십시오. debuntu.org/…
spuder

답변:


15

서버가 wget을 차단하는 경우 http 헤더의 "User-agent :"필드를 기준으로 서버를 처음으로 알 수있는 유일한 방법이므로 wget을 차단하는 것입니다. IP를 차단할 수도 있습니다.이 경우 다른 소프트웨어를 사용하면 도움이되지 않거나 요청이 얼마나 빠른지에 따라 자동화를 식별하는 체계가 있습니다 (실제 사람들은 3.2 초 안에 100 페이지를 탐색하지 않기 때문에) . 나는 그 일을하는 사람에 대해 들어 본 적이 없지만 가능합니다.

또한 wget 속도를 늦추는 방법에 대해서는 들어 보지 못했지만 user-agent 필드를 스푸핑하는 방법이 있습니다.

wget --user-agent=""

Man 페이지에 따르면 "User-agent :"는 필수 항목이 아니기 때문에 완전히 삭제됩니다. 서버가 마음에 들지 않으면 --user-agent="Mozilla/5.0"충분할 것입니다.

물론 "서버가 차단한다고 생각하는 이유"를 더 잘 설명하면 도움이 될 것입니다. wget가 아무 말이나 시간 초과합니까?


오 예! 감사. 나는 wget 도움말에서 그것을 놓쳤다. 지금 작동합니다 !!!!!!!!!!!!!!!!!!!!!!!!
SpaceDog

5
wget검색어 간 대기, 다운로드 속도 또는 요금 제한을위한 여러 가지 옵션이 있습니다. info자세한 내용 은 페이지를 확인 하십시오.
Stéphane Chazelas

6

나는 보통 httrack사이트에서 웹 컨텐츠를 다운로드 / 미러링하는 데 사용합니다.

$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0

실행 후에는 로컬 및 탐색 가능한 디렉토리 구조가 남습니다. 예를 들면 다음과 같습니다.

$ ls -l
total 304
-rw-r--r--  1 saml saml   4243 Aug 17 10:20 backblue.gif
-rw-r--r--  1 saml saml    828 Aug 17 10:20 fade.gif
drwx------  3 saml saml   4096 Aug 17 10:20 hts-cache
-rw-rw-r--  1 saml saml    233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r--  1 saml saml   1517 Aug 17 10:20 hts-log.txt
-rw-------  1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r--  1 saml saml   5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml   4096 Aug 17 10:21 2011.example.com

다운로드하면 다음과 같은 유형의 출력이 표시됩니다.

Bytes saved:    21,89KiB           Links scanned:   12/45 (+4)
Time:   2s                         Files written:   4
Transfer rate:  2,65KiB/s (2,65KiB/s)  Files updated:   1
Active connections:     1          Errors:  7

Current job: parsing HTML file (57%)
 request -  2011.example.com/cgi-bin/hostnames.pl   0B /    8,00KiB

배경 및 / 또는 중단 된 후 나중에 다시 시작할 수 있습니다. 이것은 기능면에서 빙산의 일각에 불과합니다. 다운로드를 설정하고 진행 상황을 모니터링하는 GUI도 있습니다.

httrack웹 사이트 와 인터넷 검색 에 대한 광범위한 문서가 있습니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.