wget을 사용하여 http://www.aph.gov.au/ 에서 특정 PDF 파일을 검색하고 있습니다 .
Hansard 파일 (Chamber 진행 내용의 사본) 만 검색하려고합니다.
두 가지 시나리오 :
- Hansard 대화 내용이 나와있는 페이지가 있습니다 :
http://www.aph.gov.au/Parliamentary_Business/Hansard/Hansreps_2011
이 페이지에서 요일 / 날짜 링크를 클릭하면 추가 파일에 대한 링크를 표시하는 데이터베이스 쿼리에 대한 응답이 검색됩니다. 나는 하루 종일 사본 인 '현재 Hansard 다운로드'로 표시된 파일 만 검색하려고합니다 ( '단편'을 검색하고 싶지 않습니다).
쿼리에 대한 응답을 클릭하고 하루 종일 대화 내용의 URL을 수집하고 파일로 패키지하고 wget -i를 사용하여 검색 할 수 있습니다.
나는 wget을 사용하여 하루 종일 사본 만 가져 오는 방법을 찾고 있습니다.
- 몇 년만 페이지에 표시됩니다. 그러나 데이터베이스로 이동하여 Hansard에서 고급 검색을 수행 한 다음 화면 왼쪽 상단에서 10 년 범위를 클릭 한 다음 1 년을 클릭하면 해당 연도의 다른 날짜 목록이 생성됩니다. 다시 표시되는 최상위 링크는 하루 종일 대화 내용의 pdf를 생성하지 않지만 제목을 클릭하면 하루 종일 대화 내용에 대한 링크가 표시된 페이지가 표시됩니다.
wget을 사용하여 하루 종일 사본의 pdf 만 검색하고 싶습니다.
모든 조언을 감사히 받겠습니다. 나는 '반 수동'방법으로 진전을 이루고 있지만 느리고 노동 집약적입니다.