«web-crawler» 태그된 질문

5
ebook을 위해 웹 페이지를 하나의 파일로 변환
HTML (예 : http://www.brpreiss.com/books/opus6/ ) 을 다운로드 하여 전자 책 리더에서 사용할 수있는 하나의 HTML 또는 다른 형식으로 가입 하고 싶습니다 . 무료 도서가있는 사이트에는 표준 페이징이 없으며 블로그 나 포럼이 아니므로 자동 크롤링 및 병합을 수행하는 방법을 모릅니다.


2
wget을 사용하여 크롤링하여 HTML 파일 만 다운로드하는 방법 (이미지, CSS, JS는 무시)
기본적으로 Wget으로 전체 사이트를 크롤링하고 싶지만 다른 자산 (예 : 이미지, CSS, JS 등)을 다운로드하지 않아야합니다. HTML 파일 만 원합니다. Google 검색 은 완전히 쓸모가 없습니다. 내가 시도한 명령은 다음과 같습니다. wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 …
14 wget  web-crawler 

4
Wget을 사용하여 사이트를 재귀 적으로 크롤링하고 이미지 다운로드
wget에게 웹 사이트를 재귀 적으로 크롤링하고 특정 유형의 이미지 만 다운로드하도록 지시하는 방법은 무엇입니까? 이것을 사용하여 사이트를 크롤링하고 Jpeg 이미지 만 다운로드하려고했습니다. wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html 그러나 page1.html에 이미지에 대한 직접 링크가있는 서브 페이지에 대한 수백 개의 링크가 포함되어 있어도 wget은 "거부되어야하므로 subpage13.html 제거"와 같은 내용을보고하며 …

4
cURL을 사용한 사이트 스크래핑은 어떻게 "법적"입니까? [닫은]
현재로서는이 질문이 Q & A 형식에 적합하지 않습니다. 답변, 사실, 참고 자료 또는 전문 지식을 통해 답변이 뒷받침 될 것으로 예상되지만이 질문은 토론, 논쟁, 여론 조사 또는 광범위한 토론을 요구할 것입니다. 이 질문을 개선하고 다시 열 수 있다고 생각 되면 도움말 센터 를 방문하여 안내를 받으십시오 . 휴일 9 년 …


1
텍스트가 아닌 HTML로 키워드가 포함 된 사이트를 인터넷에서 검색하려면 어떻게해야합니까?
특정 위젯을 사용하여 인터넷 사이트를 검색하고 싶습니다. Google은 이미 인터넷을 크롤링했지만 표준 검색은 코드를 잘라 내고 사람이 읽을 수있는 텍스트 만 검색합니다. 기존 인터넷 크롤러를 사용하여 사이트의 콘텐츠 (예 : 텍스트)의 일부가 아닌 HTML 코드에서 발견 된 키워드를 검색하는 방법이 있습니까?

1
개인 웹 사이트가 왜 신비로운 URL의 방문자를 유도합니까? [닫은]
최근에 내 사이트 방문자 기록을 업데이트했으며 제대로 작동하는지 확인했을 때 내 사이트에 속하지 않은 URL에서 방문자를 확보하고 있음을 알게되었습니다. 사이트가 Google에없고 내가 아는 곳과 연결되어 있지 않기 때문에 봇도보고 놀랐습니다. 내 사이트는 방문 할 때마다 사이트에 IP, 타임 스탬프, 사용자 에이전트 및 페이지 주소를 기록합니다. 어떤 이유로 다음 페이지를 방문한 …

0
로컬 웹 사이트로 웹 스크랩 가져 오기
웹 사이트에서 특정 제품을 검색하고 데이터를 추출하는 방법을 찾고 있지만 정보를 쿼리하고 다운로드하는 로컬 웹 사이트처럼이 웹 사이트로 직접 이동하지 않고, "웹 스크래핑"이 내가 찾고있는 것이라고 생각하지만 실시간으로 내 데이터를 얻는 방법을 알고 싶었습니다. 최선의 해결책은 검색 사례가 포함 된 단일 페이지를 보유하고 웹 사이트에서 데이터를 추출하여 결과를 표시하는 것입니다. …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.