기본적으로 Wget으로 전체 사이트를 크롤링하고 싶지만 다른 자산 (예 : 이미지, CSS, JS 등)을 다운로드하지 않아야합니다. HTML 파일 만 원합니다.
Google 검색 은 완전히 쓸모가 없습니다.
내가 시도한 명령은 다음과 같습니다.
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
우리 사이트는 하이브리드 flat-PHP 및 CMS입니다. 그래서, HTML "파일은"수 /path/to/page
, /path/to/page/
, /path/to/page.php
, 또는 /path/to/page.html
.
심지어 포함 -R js,css
시켰지만 여전히 파일을 다운로드하고 거부합니다 (무의미한 대역폭 낭비, CPU 및 서버로드!).
2
지금까지 시도한 명령은 무엇입니까? 파일 이름이 일관되면 -R 플래그를 사용할 수 있어야합니다. 또는 --ignore-tags 플래그를 사용하고 script 및 img 태그를 무시할 수 있습니다.
—
ernie
반대 : wget에서 특정 파일 목록 제외
—
Ƭᴇcʜιᴇ007
--accept = html을 사용해 보았지만 CSS 파일을 다운로드 한 다음 삭제합니다. 다운로드가되지 않도록하고 싶습니다. 헤더 요청은 괜찮습니다. 예를 들어
—
Nathan JB
Length: 558 [text/css]
원하지 않는 파일에 주목 합니다. 헤더 text/html
가을 반환하지 않으면 요청을 중지 할 수 있다면 기뻐할 것입니다.