«web-crawler» 태그된 질문

웹 크롤러 (웹 스파이더라고도 함)는 체계적이고 자동화 된 방식 또는 질서있는 방식으로 World Wide Web을 탐색하는 컴퓨터 프로그램입니다. 웹 크롤러에 대한 다른 용어로는 개미, 자동 인덱서, 봇, 웹 스파이더, 웹 로봇 또는 특히 FOAF 커뮤니티에서 웹 스 커터가 있습니다.

5
웹 사이트를 다시 크롤링하도록 Google에 요청하는 방법은 무엇입니까? [닫은]
닫은. 이 질문은 스택 오버플로 지침을 충족하지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 질문을 업데이트하여 스택 오버플로에 대한 주제 입니다. 휴일 오년 전에 . 이 질문을 개선하십시오 누군가 웹 사이트를 다시 크롤링하도록 Google에 요청하는 방법을 알고 있습니까? 가능하다면 몇 달 동안 지속되지 않아야합니다. 내 사이트가 Google 검색 …
227 seo  web-crawler 

2
Python에서 Requests 라이브러리를 사용하여 "User-agent"보내기
"User-agent"Python Requests를 사용하여 웹 페이지를 요청하는 동안 값을 보내려고합니다 . 아래 코드와 같이 헤더의 일부로 이것을 보내도 괜찮은지 확실하지 않습니다. debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers = user_agent, config=debug) 디버그 정보에 요청 중에 전송되는 헤더가 표시되지 않습니다. 이 정보를 헤더로 보내도 되나요? 그렇지 않은 …

4
완료되지 않은 소스 파일을 제거하지 못하도록 rsync 유지
속도와 질량의 두 기계가 있습니다. speed는 빠른 인터넷 연결을 가지고 있으며 크롤러를 실행하여 많은 파일을 디스크에 다운로드합니다. 질량에는 디스크 공간이 많이 있습니다. 다운로드가 끝나면 파일을 속도에서 대량으로 옮기고 싶습니다. 이상적으로는 방금 실행합니다. $ rsync --remove-source-files speed:/var/crawldir . 하지만 rsync가 아직 다운로드를 완료하지 않은 소스 파일의 링크를 해제 할까 걱정합니다. (나는 …



11
각 Docker 이미지에 대한 레이어 및 레이어 크기 찾기
연구 목적으로 공개 Docker 레지스트리 ( https://registry.hub.docker.com/ ) 를 크롤링하고 1) 평균 이미지에있는 레이어 수와 2) 이러한 레이어의 크기를 확인하여 배포에 대한 아이디어. 그러나 API 및 공용 라이브러리와 github에 대한 세부 정보를 연구했지만 다음과 같은 방법을 찾을 수 없습니다. 모든 공개 저장소 / 이미지를 검색합니다 (수천 개라도 반복하려면 시작 목록이 …

11
'스텔스'웹 크롤러 감지
탐지를 원하지 않는 웹 크롤러를 탐지하기 위해 어떤 옵션이 있습니까? (목록 탐지 기술을 사용하면 스마트 스텔스 크롤러 프로그래머가 더 나은 스파이더를 만들 수 있다는 것을 알고 있지만 어쨌든 스마트 스텔스 크롤러를 차단할 수는 없을 것이라고 생각합니다. googlebot 및 Yahoo!와 같은 멋진 크롤러에 대해 말하는 것이 아닙니다. 슬러 프. 다음과 같은 …
107 web-crawler 

2
TypeError : re.findall ()의 바이트 열류 객체에 문자열 패턴을 사용할 수 없습니다.
페이지에서 URL을 자동으로 가져 오는 방법을 배우려고합니다. 다음 코드에서 웹 페이지의 제목을 얻으려고합니다. import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as response: html = response.read() title = re.findall(pattern, html) print(title) 그리고이 예기치 않은 오류가 발생합니다. Traceback (most recent call last): File "path\to\file\Crawler.py", …



8
사이트에서 URL 목록 가져 오기 [닫힘]
닫은. 이 질문은 Stack Overflow 지침을 충족하지 않습니다 . 현재 답변을 받고 있지 않습니다. 이 질문을 개선하고 싶으십니까? Stack Overflow의 주제에 맞게 질문을 업데이트하세요 . 휴일 3 년 전 . 이 질문 개선 클라이언트를 위해 대체 사이트를 배포하고 있지만 모든 이전 페이지가 404로 끝나는 것을 원하지 않습니다. 끔찍했기 때문에 이전 …


10
봇에서 이메일 주소 숨기기-메일 유지 :
tl; dr 스크립트를 사용하지 않고 봇으로부터 이메일 주소를 숨기고 mailto:기능을 유지 합니다. 메서드는 화면 판독기도 지원해야합니다. 요약 스크립트 또는 문의 양식 을 사용 하지 않고 이메일 난독 화 이메일 주소는 사람이 보는 사람 이 완전히 볼 수 있어야 하고 mailto:기능을 유지해야 합니다. 이메일 주소 는 이미지 형식이 아니어야합니다 . 이메일 …
81 html  css  web-crawler  mailto 
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.