온라인 데이터베이스에서 대량의 정보를 다운로드하는 방법은 무엇입니까?


2

개인 회사에서 제공하는 여러 데이터베이스를 사용하는 연구 프로젝트를 진행하고 있습니다. 정보에 대한 통계 테스트를 실행하려면 이러한 데이터베이스 중 하나에서 많은 양의 정보를 얻어야합니다. 문제는 사이트가 사용자에게 친숙하지 않으며 한 번에 10 건 (한 장) 만 다운로드 할 수 있다는 것입니다 (다운로드 할 약 25,000 장이있을 것입니다 ...). 어떤 제안?

이것은 지금까지 시도한 것입니다 :-DownThemAll (Firefox 웹 브라우저 용 응용 프로그램)을 사용하면 한 번에 10 장을 얻을 수 있습니다. 어느 것이 좋지만 여전히 필요한 것에서 멀리 떨어져 있습니다. 여기서 문제는 다운로드 할 다음 시트의 수를 보려면 "다음"단추를 눌러야한다는 것입니다. DownThemAll은 해당 단추를 눌러 해당 페이지에 나열된 시트를 다운로드해야한다는 것을 인식하지 못합니다. 과정을 계속 반복하십시오.

다음을 수행하는 데 사용할 수있는 프로그래밍 언어가 있습니까? for 루프를 수행하여 데이터베이스에 로그온하고 정보의 일부를 얻고 로그 아웃 한 다음 다시 로그온하고 티비를 더 많이 얻고 로그 아웃하는 것을 요청하십시오. 전체 정보를 얻을 때까지?


최신 정보

모두에게 감사를 표하기 만하면됩니다. 답변을 투표 할 충분한 담당자가 없습니다. 또는 시간을 내 주셔서 감사합니다.


모든 프로그래밍 언어가 그렇게 할 수 있다고 말하고 싶습니다. 루비에서는 이와 같은 작업을 수행했지만 Python, Java 등을 사용할 수도 있습니다. 까다로운 부분은 실제로 로그온해야 할 때 무언가를 다운로드하는 것입니다. 그러나 구체적인 예가 없다면 도움을주는 것이 정말로 어렵습니다 (아마도 당신이 어떤 것도 줄 수 없다는 것을 알고 있습니다).
slhck

답변:


0

slhck이 지적했듯이 거의 모든 범용 프로그래밍 언어로 그렇게 할 수 있습니다.

쿠키 및 기타 브라우저 특정 동작을 처리하려면 약간의 추가 작업이 필요할 수 있습니다.

브라우저를 어느 정도 모방하려고하는 라이브러리가 있습니다. 기계화 확인 http://wwwsearch.sourceforge.net/mechanize/ (python)

http://curl.haxx.se/libcurl/ curl 에는 몇 가지 언어 AFAIK에 대한 포트와 바인딩이 있습니다.

물론, 우리는 당신이 그렇게 할 수 있다고 가정합니다.


0

Offline Explorer Pro (무료 아님) 와 같은 로그인을 지원하는 재귀 웹 사이트 다운로더를 사용해 볼 수 있습니다. 내부 브라우저를 사용하여 로그인하고 결과 쿠키를 사용하여 사이트를 크롤링합니다. 이것에 대한 포럼 토론 .

이 작업을 수행하는 무료 소프트웨어가 있으면 알고 싶습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.