«scraping» 태그된 질문

2
5 백만 개의 웹 페이지를 긁는 가장 효율적인 방법 (시간, 비용)?
스크랩하고 구문 분석 한 다음 결과 데이터를 데이터베이스에 저장해야하는 웹 페이지 목록이 있습니다. 총계는 약 5,000,000입니다. 이것에 접근하는 가장 좋은 방법은 ~ 100 EC2 인스턴스를 배포하고 각 인스턴스에 50,000 페이지를 스크래핑 한 다음 실행되도록 남겨두고 프로세스가 완료되면 데이터베이스를 병합하는 것입니다. 실행하는 데 하루가 걸릴 것으로 가정합니다 (각 페이지를로드, 구문 분석 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.