«web-scraping» 태그된 질문

웹 스크래핑은 API 또는 기타 자동화 된 데이터 검색 방법을 쉽게 제공하지 않는 웹 사이트에서 특정 정보를 추출하는 프로세스입니다. "스크래핑을 시작하는 방법"(예 : Excel VBA 사용)에 대한 질문은 수많은 기능 코드 샘플을 사용할 수 있으므로 * 철저히 조사 *해야합니다. 웹 스크래핑 방법에는 타사 응용 프로그램, 사용자 지정 소프트웨어 개발 또는 표준화 된 방식의 수동 데이터 수집이 포함됩니다.

30
HTML 스크래핑 옵션? [닫은]
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 육년 전 . HTML 스크래핑을위한 Python 패키지 인 Beautiful Soup 을 시도하고 있습니다. 살펴 봐야 할 다른 HTML 스크래핑 패키지가 있습니까? …

16
클래스별로 요소를 찾는 방법
Beautifulsoup을 사용하여 "클래스"속성이있는 HTML 요소를 구문 분석하는 데 문제가 있습니다. 코드는 다음과 같습니다 soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div 스크립트가 끝나고 "후"같은 줄에 오류가 발생합니다. File "./beautifulcoding.py", line 130, in getlanguage if (div["class"] == "stylelistrow"): File "/usr/local/lib/python2.6/dist-packages/BeautifulSoup.py", line 599, in …

3
헤드리스 브라우저 및 스크래핑-솔루션 [닫기]
닫은. 이 질문은 스택 오버플로 지침을 충족하지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 질문 업데이트 는 그래서 주제에 스택 오버플로합니다. 휴일 오년 전에 . 브라우저 자동 테스트 슈트 및 긁을 수있는 헤드리스 브라우저 플랫폼에 대한 가능한 솔루션 목록을 작성하려고합니다. 브라우저 테스트 / 스 크라이 핑 : 셀레늄 …

6
URL 또는 웹 페이지의 Google 캐시 기간을 어떻게 알 수 있습니까? [닫은]
닫은. 이 질문은 스택 오버플로 지침을 충족하지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 질문을 업데이트하여 스택 오버플로에 대한 주제 입니다. 휴일 2 년 전 . 이 질문을 개선하십시오 내 프로젝트에서 중요한 정보로 Google 캐시 기간을 추가해야합니다. Google 캐시 기간에 대한 소스, 즉 Google이 마지막으로 페이지를 다시 색인화 …

3
어떤 HTML 파서가 최고입니까? [닫은]
현재로서는이 질문이 Q & A 형식에 적합하지 않습니다. 답변, 사실, 참고 자료 또는 전문 지식을 통해 답변이 뒷받침 될 것으로 예상되지만이 질문은 토론, 논쟁, 여론 조사 또는 광범위한 토론을 요구할 것입니다. 이 질문을 개선하고 다시 열 수 있다고 생각 되면 도움말 센터 를 방문하여 안내를 받으십시오 . 휴일 칠년 전에 …

13
Python을 사용하여 Selenium으로 드롭 다운 메뉴 값을 선택하는 방법은 무엇입니까?
드롭 다운 메뉴 에서 요소를 선택해야 합니다. 예를 들면 다음과 같습니다. <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> </select> 1) 먼저 클릭해야합니다. 나는 이것을한다: inputElementFruits = driver.find_element_by_xpath("//select[id='fruits']").click() 2) 그 후에 좋은 요소를 선택해야합니다 Mango. 나는 그것을하려고했지만 inputElementFruits.send_keys(...)작동하지 않았다.

14
Python을 사용한 웹 스크랩 핑 JavaScript 페이지
간단한 웹 스크레이퍼를 개발하려고합니다. HTML 코드없이 텍스트를 추출하고 싶습니다. 실제로이 목표를 달성했지만 JavaScript 가로 드 된 일부 페이지에서는 좋은 결과를 얻지 못했습니다. 예를 들어, 일부 JavaScript 코드가 텍스트를 추가하면 텍스트를 볼 수 없습니다. response = urllib2.urlopen(request) JavaScript가 클라이언트에서 실행되기 때문에 추가 된 텍스트없이 원본 텍스트를 얻습니다. 그래서이 문제를 해결할 아이디어를 …




7
Puppeteer : .evaluate ()에서 변수 전달
Puppeteer 의 page.evaluate()함수에 변수를 전달하려고하는데 다음과 같은 매우 간단한 예제를 사용하면 변수 가 정의되지 않습니다.evalVar 저는 Puppeteer를 처음 사용하고 빌드 할 예제를 찾을 수 없으므로 해당 변수를 page.evaluate()함수에 전달 하여 내부에서 사용할 수 있도록 도움이 필요합니다 . const puppeteer = require('puppeteer'); (async() => { const browser = await puppeteer.launch({headless: false}); …

4
Python 요청을 사용하여 브라우저 방문을 가짜로 만드는 방법은 무엇입니까?
아래 웹 사이트에서 콘텐츠를 얻고 싶습니다. Firefox 또는 Chrome과 같은 브라우저를 사용하면 원하는 실제 웹 사이트 페이지를 얻을 수 있지만 Python 요청 패키지 (또는 wget명령)를 사용하여 가져 오면 완전히 다른 HTML 페이지가 반환됩니다. 나는 웹 사이트 개발자가 이것을 위해 몇 가지 블록을 만들었다 고 생각했기 때문에 질문은 다음과 같습니다. 파이썬 …

17
스크래핑 : SSL : http://en.wikipedia.org에 대한 CERTIFICATE_VERIFY_FAILED 오류
나는 '파이썬으로 웹 스크래핑'의 코드를 연습하고 있으며이 인증서 문제가 계속 발생합니다. from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] not in pages: #We have …

2
웹 사이트에서 데이터를 스크랩하는 가장 좋은 방법은 무엇입니까? [닫은]
닫힘 . 이 질문은 의견 기반 입니다. 현재 답변을 받고 있지 않습니다. 이 질문을 개선하고 싶으십니까? 이 게시물 을 편집 하여 사실과 인용으로 답변 할 수 있도록 질문을 업데이트하십시오 . 휴일 육년 전 . 이 질문 개선 웹 사이트에서 콘텐츠를 추출해야하지만 응용 프로그램은 해당 데이터에 프로그래밍 방식으로 액세스 할 수있는 …

2
동적 페이지 용 스크래피가있는 셀레늄
스크래피를 사용하여 웹 페이지에서 제품 정보를 긁어 내려고합니다. 내 스크랩 할 웹 페이지는 다음과 같습니다. 10 개의 제품이있는 product_list 페이지로 시작 "다음"버튼을 클릭하면 다음 10 개의 제품이로드됩니다 (URL은 두 페이지간에 변경되지 않음). LinkExtractor를 사용하여 각 제품 링크를 제품 페이지로 이동하고 필요한 모든 정보를 얻습니다. next-button-ajax-call을 복제하려고했지만 작동하지 않아서 셀레늄을 사용해 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.