«web-scraping» 태그된 질문

웹 스크래핑은 API 또는 기타 자동화 된 데이터 검색 방법을 쉽게 제공하지 않는 웹 사이트에서 특정 정보를 추출하는 프로세스입니다. "스크래핑을 시작하는 방법"(예 : Excel VBA 사용)에 대한 질문은 수많은 기능 코드 샘플을 사용할 수 있으므로 * 철저히 조사 *해야합니다. 웹 스크래핑 방법에는 타사 응용 프로그램, 사용자 지정 소프트웨어 개발 또는 표준화 된 방식의 수동 데이터 수집이 포함됩니다.

8
더 빨리 긁을 수있는 방법
여기 작품은 API를에서 시작하는 사이트 긁어하는 것입니다 https://xxx.xxx.xxx/xxx/1.json을 https://xxx.xxx.xxx/xxx/1417749.json하고 MongoDB를 정확하게 그것을 쓰기. 이를 위해 다음 코드가 있습니다. client = pymongo.MongoClient("mongodb://127.0.0.1:27017") db = client["thread1"] com = db["threadcol"] start_time = time.time() write_log = open("logging.log", "a") min = 1 max = 1417749 for n in range(min, max): response = requests.get("https:/xx.xxx.xxx/{}.json".format(str(n))) if response.status_code …

3
VBA 및 HTML을 사용하여 자동 완성 목록에서 항목을 클릭하십시오.
웹 사이트에 세부 정보를 입력 할 수있는 자동화를 만들었습니다 (내부로 공유 할 수는 없지만). 아래 코드는 "수신 대상"에 텍스트를 입력 할 때까지만 작동합니다. 그러나이 "수신 대상"필드에는 자동 완성 목록이 있으며 TIN 및 주소와 같은 다른 필드를 채우려면이 필드를 선택해야합니다. 자동 완성 목록은 https://jqueryui.com/autocomplete/ 또는 http://demos.codexworld.com/autocomplete-textbox-using-jquery-php-mysql/ 의 목록과 매우 유사합니다. 아래는 …

1
페이로드 내에서 사용할 스크립트에서 자동으로 몇 가지 값을 생성 할 수 없습니다.
이후에 두 개의 https 요청을 보내 대상 페이지에서 html 요소를 가져 오는 스크립트를 만들었습니다. 내 스크립트는 완벽하게 할 수 있습니다. 그러나 payload대상 페이지에 도달하기 위해 최종 http 요청을 보내려면 크롬 개발 도구에서 4 개의 값을 복사하여 4 개의 키를 채우십시오 . 이것은 시작 링크 이며 다음은 타겟 페이지에 도달하는 방법에 …

2
웹 사이트에 로그인했는지 확인하기 위해 사용자 이름을 파싱 할 수 없습니다
파이썬으로 스크립트를 작성하여 웹 사이트에 로그인하고 사용자 이름을 구문 분석하여 실제로 로그인 할 수 있는지 확인했습니다. 아래에서 시도한 방식을 사용하면 거기에 도달하는 것 같습니다. 그러나 스크립트의 크롬 개발 도구에서 가져온 하드 코드 쿠키를 사용하여 성공했습니다. 나는 시도했다 : import requests from bs4 import BeautifulSoup url = 'https://secure.imdb.com/ap/signin?openid.pape.max_auth_age=0&openid.return_to=https%3A%2F%2Fwww.imdb.com%2Fap-signin-handler&openid.identity=http%3A%2F%2Fspecs.openid.net%2Fauth%2F2.0%2Fidentifier_select&openid.assoc_handle=imdb_pro_us&openid.mode=checkid_setup&siteState=eyJvcGVuaWQuYXNzb2NfaGFuZGxlIjoiaW1kYl9wcm9fdXMiLCJyZWRpcmVjdFRvIjoiaHR0cHM6Ly9wcm8uaW1kYi5jb20vIn0&openid.claimed_id=http%3A%2F%2Fspecs.openid.net%2Fauth%2F2.0%2Fidentifier_select&openid.ns=http%3A%2F%2Fspecs.openid.net%2Fauth%2F2.0' signin = 'https://secure.imdb.com/ap/signin' …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.