wget에게 웹 사이트를 재귀 적으로 크롤링하고 특정 유형의 이미지 만 다운로드하도록 지시하는 방법은 무엇입니까?
이것을 사용하여 사이트를 크롤링하고 Jpeg 이미지 만 다운로드하려고했습니다.
wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html
그러나 page1.html에 이미지에 대한 직접 링크가있는 서브 페이지에 대한 수백 개의 링크가 포함되어 있어도 wget은 "거부되어야하므로 subpage13.html 제거"와 같은 내용을보고하며 직접 링크 된 링크가 없으므로 이미지를 다운로드하지 않습니다. 시작 페이지에서.
필자는 --accept를 사용하여 크롤링 및 콘텐츠를 다운로드하도록 필터를 지정하는 데 사용하는 반면 콘텐츠 다운로드를 지시하는 데만 사용하기를 원한다고 가정합니다. wget이 모든 링크를 크롤링하지만 * .jpeg와 같은 특정 확장자를 가진 파일 만 다운로드하려면 어떻게해야합니까?
편집 : 또한 일부 페이지는 동적이며 CGI 스크립트를 통해 생성됩니다 (예 : img.cgi? fo9s0f989wefw90e). 수락 목록에 cgi를 추가하더라도 (예 : --accept = jpg, jpeg, html, cgi) 여전히 거부됩니다. 이 주위에 방법이 있습니까?