웹 페이지에서 모든 PDF 링크를 다운로드 하시겠습니까? [닫은]

23

닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다.

이 질문을 개선하고 싶습니까? 질문을 업데이트하여 수퍼 유저에게 주제가 되도록하십시오 .

작년에 문을 닫았 습니다 .

당신은 웹 페이지에 모든 PDF 링크를 다운로드하는 좋은 소프트웨어를 알고 있습니까 ??

운영 체제는 Windows 7입니다.

— 물어봐
소스

36

wget 을 사용 하고 다음과 같은 명령을 실행할 수 있습니다 .

wget --recursive --level=1 --no-directories --no-host-directories --accept pdf http://example.com

또는 짧은 옵션으로 :

wget -r -l 1 -nd -nH -A pdf http://example.com

업데이트 : 업데이트에 Windows 7을 실행 중이라고 표시 되어 있으므로 프롬프트 에서 Windows 용 wget을 사용하십시오 cmd.

업데이트 2 : 그래픽 솔루션의 경우 다른 파일도 가져 오기 때문에 과잉 일 수 있지만 DownThemAll

— 케빈 워싱턴
소스

조언에 대해 케빈에게 감사드립니다. wget은 좋아 보입니다. 어쨌든 나는 '그래픽'소프트웨어가 아닌 명령 줄을 선호합니다. :)

— iAsk

2

초기 .html 페이지조차 거부합니다. 테스트 된 적이 있습니까?

— dan3

이 질문은 모든 PDF 링크를 다운로드하는 것에 대한 질문이므로 초기 .html 페이지는 무시됩니다.

— Kevin Worthington

Power Shell을 사용하여 Windows 7에서 동일한 작업을 수행 할 가능성이 있습니까?

— 베네딕트 부 쉐르

1

또한 파일 다운로드 사이에 최소 몇 초의 지연 시간을 두어 원격 서버를 압도하지 않는 것이 좋습니다. 예 : wget의 경우-w 5

— KJH

6

브라우저에서 CTRL+ SHIFT+ J를 누르고 다음을 입력하십시오.

var pdflinks = []; Array.prototype.map. call (document.querySelectorAll ( "a [href $ = \". pdf \ "]"), function (e, i) {if ((pdflinks || []). indexOf (e.href) ==-1) {pdflinks.push (e.href);}}); console.log (pdflinks.join ( ""));

콘솔로 돌아옵니다 :

" /superuser/tagged/somepdf1.pdf " " /superuser/tagged/somepdf2.pdf " " /superuser/tagged/somepdf3.pdf "
이제 wget명령 행 옵션과 함께 사용wget url1 url2 ...

이것을 복사하여 붙여넣고 콘솔을 연 다음 wget마우스 오른쪽 버튼을 눌러 클립 보드 내용을 삽입하고 Enter를 누르십시오.

다운로드 파일을 사용하려면 "\ n"으로 행을 결합하고 다음과 같이 매개 변수를 사용하십시오. wget -i mydownload.txt

대부분의 다른 (GUI) 다운로드 프로그램도 공백으로 구분 된 URL 목록으로 호출되도록 허용합니다.

이것이 도움이되기를 바랍니다. 이것이 내가 일반적으로하는 방법입니다. 그래픽 UI가있는 확장보다 빠르고 유연합니다. 배우고 친숙해야합니다.

— 로렌스로 사우어
소스

1

더 나은 방법은 console.log('"' + pdflinks.join('" "') + '"')-그렇지 않으면 실제로 인용 된 URL을 얻지 못하는 것입니다

— dan3

1

브라우저에 머무르고 싶다면이 목적을 위해 웹 확장 프로그램을 작성했습니다. 제대로 기사 제목 PDF를 올바른 형식의 제목으로 저장하는 기능을 추가하려고 노력하고 있지만 다운로드를 원할 경우 완벽합니다. 이를 위해.

탭 저장 이라고 하고 Chrome 웹 스토어에 있습니다 . 탭에서 URL을 모두 열면 URL 목록을 입력 할 필요조차 없습니다. 그러나 많은 파일의 경우 컴퓨터 속도가 느려져서 고유 한 옵션을 추가했습니다.

— 루이스 매덕스
소스

0

나는 최근 에 이것을 위해 uGet (Windows에서)을 사용했습니다. GUI가 있으며 다운로드하려는 파일을 필터링 할 수 있습니다.

모든 것을 기억하려고 저장

— 성상
소스

0

Chrome에서는 다음과 같은 확장 프로그램을 사용할 수 있습니다.

마스터 다운로드

이 확장 기능을 사용하면 방문한 웹 페이지에 링크 된 모든 이미지, 비디오, pdf, doc 및 기타 파일을 다운로드 할 수 있습니다.

— 케 노브
소스

0

구글

Google 검색 결과에 따라 웹 사이트에서 PDF 링크를 다운로드 할 수있는 Python 도구는 거의 없습니다.

예 :

google_dl스크립트 (권장).

용법:

./google_dl -s http://www.example.com/ -f pdf ""

gsrchDwn스크립트 ( 네오의 스크립트를 기반으로 함 ).

용법:
```
./gsrchDwn.py --query "site:http://www.example.com/" --ftype pdf
```

^{참고 : 나는 언급 된 두 스크립트의 관리자입니다.}

둘 다 xgoogle파이썬 라이브러리를 구현하고 있습니다. 이 라이브러리의 포크는 pkrumins/xgoogle버전을 기반으로합니다 .

관련 : Linux 명령 행에서 웹 검색 .

— 케 노브
소스