매개 변수가있는 링크를 따르지 않고 wget으로 다운로드하는 방법


11

CD에 포함 할 두 개의 사이트를 다운로드하려고합니다.

http://boinc.berkeley.edu/trac/wiki
http://www.boinc-wiki.info

내가 겪고있는 문제는 둘 다 위키입니다. 예를 들어 다운로드 할 때 :

wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/

...? action = edit ...? action = diff & version = ... 같은 링크를 따르기 때문에 많은 파일을 얻습니다 .

누군가이 문제를 해결할 수있는 방법을 알고 있습니까?

이미지가없고 diffs 등이없는 현재 페이지를 원합니다.

추신:

wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex

이것은 버클리에서 효과가 있었지만 boinc-wiki.info는 여전히 문제가 있습니다.

PPS :

가장 관련성이 높은 페이지 인 것으로 보입니다.

wget -r -k -nv  -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info

수퍼 유저와 serverfault 사이를 교차 할 필요가 없습니다 serverfault.com/questions/156045/…
Bryan

어디에 게시해야합니까?
타이 파이터

이곳이 옳습니다. 서버 질문이 아닙니다.
David Z

아직도 나는 serverfault에서 더 나은 답변을 얻었다;)
Tie-fighter

답변:


5

새로운 버전의 wget (v.1.14)은 이러한 모든 문제를 해결합니다.

--reject-regex=....쿼리 문자열을 처리 하려면 새로운 옵션을 사용해야합니다 .

이러한 새로운 옵션이 포함 된 새 설명서를 찾을 수 없으므로 help 명령을 사용해야합니다. wget --help > help.txt


4
wget --reject-regex '(.*)\?(.*)' http://example.com

( --reject-type posix기본적으로). wget다른 의견에 따르면 최신 (> = 1.14) 버전에서만 작동합니다 .

통화 --reject-regex당 한 번만 사용할 수있는 것 같습니다 wget. 즉, |여러 정규 표현식을 선택하려면 단일 정규 표현식에서 사용해야합니다.

wget --reject-regex 'expr1|expr2|…' http://example.com

버전 요구 사항에 대해 사실 일 수 있습니다. v1.12가 있었고 옵션이 유효하지 않습니다. v1.15로 업그레이드 한 후였습니다.
yunzen

|GNU Wget 1.16 에서는 ( "pipe") 기호를 사용한 정규식 대체 가 작동하지 않습니다.
sampablokuper

0
wget -R "*?action=*"

?action=이름에 포함 된 것은 제외됩니다 .


3
"또한 쿼리 문자열 (물음표 ( '?'로 시작하는 URL 끝에있는 문자열)은 수락 / 거부 규칙의 파일 이름의 일부로 포함되지 않습니다. 향후 버전의 Wget은 쿼리 문자열과의 일치를 허용하는 옵션을 제공 할 것으로 예상됩니다. "
Tie-fighter

흠, 나는 그것을 놓쳤다. wget 으로이 작업을 수행 할 수없는 것처럼 보입니다. 다른 파일인지조차 모를 경우에도 마찬가지입니다. 다른 프로그램을 제안합니다.
Daisetsu

-3

공개 위키 사이트를 거머리로 만드는 것은 사이트에 추가 부하를 가하기 때문에 나쁜 습관이라고 말합니다.

위키가 공개적이며 사이트 소유자가 컨텐츠를 공유하지 않아도되는 경우 일반적으로 다운로드 가능한 백엔드 (데이터베이스 또는 기타) 덤프를 제공합니다. 따라서 데이터 팩을 다운로드하고 동일한 Wiki 엔진의 로컬 인스턴스를 설정하고 데이터를 가져 와서 로컬 사본을 보유하면됩니다. 그 후, 원하는 경우 로컬에서 거머리를 할 수 있습니다.


-w 초가 있습니다. -w 5. gnu.org/software/wget/manual/html_node/…
barlop
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.