wget — 온라인 데이터베이스에서 pdf 파일 검색


0

wget을 사용하여 http://www.aph.gov.au/ 에서 특정 PDF 파일을 검색하고 있습니다 .

Hansard 파일 (Chamber 진행 내용의 사본) 만 검색하려고합니다.

두 가지 시나리오 :

  1. Hansard 대화 내용이 나와있는 페이지가 있습니다 :

http://www.aph.gov.au/Parliamentary_Business/Hansard/Hansreps_2011

이 페이지에서 요일 / 날짜 링크를 클릭하면 추가 파일에 대한 링크를 표시하는 데이터베이스 쿼리에 대한 응답이 검색됩니다. 나는 하루 종일 사본 인 '현재 Hansard 다운로드'로 표시된 파일 만 검색하려고합니다 ( '단편'을 검색하고 싶지 않습니다).

쿼리에 대한 응답을 클릭하고 하루 종일 대화 내용의 URL을 수집하고 파일로 패키지하고 wget -i를 사용하여 검색 할 수 있습니다.

나는 wget을 사용하여 하루 종일 사본 만 가져 오는 방법을 찾고 있습니다.

  1. 몇 년만 페이지에 표시됩니다. 그러나 데이터베이스로 이동하여 Hansard에서 고급 검색을 수행 한 다음 화면 왼쪽 상단에서 10 년 범위를 클릭 한 다음 1 년을 클릭하면 해당 연도의 다른 날짜 목록이 생성됩니다. 다시 표시되는 최상위 링크는 하루 종일 대화 내용의 pdf를 생성하지 않지만 제목을 클릭하면 하루 종일 대화 내용에 대한 링크가 표시된 페이지가 표시됩니다.

wget을 사용하여 하루 종일 사본의 pdf 만 검색하고 싶습니다.

모든 조언을 감사히 받겠습니다. 나는 '반 수동'방법으로 진전을 이루고 있지만 느리고 노동 집약적입니다.

답변:


0

을 (를) 사용하여이 작업을 수행 할 수 없습니다 wget.

날짜 링크가있는 첫 번째 페이지를 가져 와서 올바른 URL에 대해 페이지를 구문 분석하는 스크립트를 작성해야합니다. 그런 다음 스크립트는 해당 URL에서 페이지를 가져 와서 URL을 PDF로 구문 분석합니다.

beautifulsoup 라이브러리 를 사용하는 커스텀 파이썬 스크립트를 사용하면 됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.