프로그램 작성 web-crawler

5

웹 사이트를 다시 크롤링하도록 Google에 요청하는 방법은 무엇입니까? [닫은]

닫은. 이 질문은 스택 오버플로 지침을 충족하지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 질문을 업데이트하여 스택 오버플로에 대한 주제 입니다. 휴일 오년 전에 . 이 질문을 개선하십시오 누군가 웹 사이트를 다시 크롤링하도록 Google에 요청하는 방법을 알고 있습니까? 가능하다면 몇 달 동안 지속되지 않아야합니다. 내 사이트가 Google 검색 …

227 seo web-crawler

2

Python에서 Requests 라이브러리를 사용하여 "User-agent"보내기

"User-agent"Python Requests를 사용하여 웹 페이지를 요청하는 동안 값을 보내려고합니다 . 아래 코드와 같이 헤더의 일부로 이것을 보내도 괜찮은지 확실하지 않습니다. debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers = user_agent, config=debug) 디버그 정보에 요청 중에 전송되는 헤더가 표시되지 않습니다. 이 정보를 헤더로 보내도 되나요? 그렇지 않은 …

216 python web-crawler python-requests

4

완료되지 않은 소스 파일을 제거하지 못하도록 rsync 유지

속도와 질량의 두 기계가 있습니다. speed는 빠른 인터넷 연결을 가지고 있으며 크롤러를 실행하여 많은 파일을 디스크에 다운로드합니다. 질량에는 디스크 공간이 많이 있습니다. 다운로드가 끝나면 파일을 속도에서 대량으로 옮기고 싶습니다. 이상적으로는 방금 실행합니다. $ rsync --remove-source-files speed:/var/crawldir . 하지만 rsync가 아직 다운로드를 완료하지 않은 소스 파일의 링크를 해제 할까 걱정합니다. (나는 …

169 storage web-crawler rsync

8

BeautifulSoup과 Scrapy 크롤러의 차이점은 무엇입니까?

아마존과 이베이 제품 가격의 비교를 보여주는 웹 사이트를 만들고 싶습니다. 이 중 어느 것이 더 잘 작동하며 왜 그럴까요? 나는 BeautifulSoup에 다소 익숙 하지만 Scrapy 크롤러 에는별로 익숙 하지 않습니다 .

134 python beautifulsoup scrapy web-crawler

16

PHP로 검색 엔진 봇을 감지하는 방법?

PHP를 사용하여 검색 엔진 봇을 어떻게 감지 할 수 있습니까?

118 php web-crawler bots

11

각 Docker 이미지에 대한 레이어 및 레이어 크기 찾기

연구 목적으로 공개 Docker 레지스트리 ( https://registry.hub.docker.com/ ) 를 크롤링하고 1) 평균 이미지에있는 레이어 수와 2) 이러한 레이어의 크기를 확인하여 배포에 대한 아이디어. 그러나 API 및 공용 라이브러리와 github에 대한 세부 정보를 연구했지만 다음과 같은 방법을 찾을 수 없습니다. 모든 공개 저장소 / 이미지를 검색합니다 (수천 개라도 반복하려면 시작 목록이 …

111 image docker web-crawler

11

'스텔스'웹 크롤러 감지

탐지를 원하지 않는 웹 크롤러를 탐지하기 위해 어떤 옵션이 있습니까? (목록 탐지 기술을 사용하면 스마트 스텔스 크롤러 프로그래머가 더 나은 스파이더를 만들 수 있다는 것을 알고 있지만 어쨌든 스마트 스텔스 크롤러를 차단할 수는 없을 것이라고 생각합니다. googlebot 및 Yahoo!와 같은 멋진 크롤러에 대해 말하는 것이 아닙니다. 슬러 프. 다음과 같은 …

107 web-crawler

2

TypeError : re.findall ()의 바이트 열류 객체에 문자열 패턴을 사용할 수 없습니다.

페이지에서 URL을 자동으로 가져 오는 방법을 배우려고합니다. 다음 코드에서 웹 페이지의 제목을 얻으려고합니다. import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as response: html = response.read() title = re.findall(pattern, html) print(title) 그리고이 예기치 않은 오류가 발생합니다. Traceback (most recent call last): File "path\to\file\Crawler.py", …

107 python python-3.x web-crawler

5

스크래피 스파이더에서 사용자 정의 인수를 전달하는 방법

사용자 정의 인수를 스크래피 스파이더에 전달하려고합니다. 누구든지 그 방법에 대해 제안 할 수 있습니까? -a어딘가 에서 매개 변수에 대해 읽었 지만 사용 방법을 모릅니다.

100 python scrapy web-crawler

5

웹 사이트에서 모든 링크 / 페이지를 찾는 방법

주어진 웹 사이트에서 모든 페이지와 링크를 찾을 수 있습니까? URL을 입력하고 해당 사이트의 모든 링크에 대한 디렉토리 트리를 만들고 싶습니다. HTTrack을 살펴 봤지만 전체 사이트를 다운로드하고 디렉토리 트리가 필요합니다.

98 directory web-crawler

8

사이트에서 URL 목록 가져 오기 [닫힘]

닫은. 이 질문은 Stack Overflow 지침을 충족하지 않습니다 . 현재 답변을 받고 있지 않습니다. 이 질문을 개선하고 싶으십니까? Stack Overflow의 주제에 맞게 질문을 업데이트하세요 . 휴일 3 년 전 . 이 질문 개선 클라이언트를 위해 대체 사이트를 배포하고 있지만 모든 이전 페이지가 404로 끝나는 것을 원하지 않습니다. 끔찍했기 때문에 이전 …

94 web-crawler

10

단일 Scrapy 프로젝트에서 서로 다른 스파이더에 대해 서로 다른 파이프 라인을 사용하려면 어떻게해야합니까?

여러 거미가 포함 된 스크래피 프로젝트가 있습니다. 어떤 스파이더에 사용할 파이프 라인을 정의 할 수있는 방법이 있습니까? 내가 정의한 모든 파이프 라인이 모든 스파이더에 적용되는 것은 아닙니다. 감사

84 python scrapy web-crawler

10

봇에서 이메일 주소 숨기기-메일 유지 :

tl; dr 스크립트를 사용하지 않고 봇으로부터 이메일 주소를 숨기고 mailto:기능을 유지 합니다. 메서드는 화면 판독기도 지원해야합니다. 요약 스크립트 또는 문의 양식 을 사용 하지 않고 이메일 난독 화 이메일 주소는 사람이 보는 사람 이 완전히 볼 수 있어야 하고 mailto:기능을 유지해야 합니다. 이메일 주소 는 이미지 형식이 아니어야합니다 . 이메일 …

81 html css web-crawler mailto

«web-crawler» 태그된 질문