LinkedIn 웹 스크래핑


11

최근 에 LinkedIn API에 연결하기위한 새로운 R 패키지 를 발견했습니다 . 불행히도 LinkedIn API는 시작하기에 꽤 제한적입니다. 예를 들어 회사에 대한 기본 데이터 만 얻을 수 있으며 개인의 데이터와 분리됩니다. 특정 회사의 모든 직원에 대한 데이터를 얻고 싶습니다 . 사이트에서 수동으로 수행 할 수 있지만 API를 통해 불가능합니다.

import.ioLinkedIn 페이지 매김을 인식하면 완벽합니다 (페이지 끝 참조).

링크드 인 사이트의 현재 형식에 적용 할 수있는 웹 스크래핑 도구 또는 기술이나보다 유연한 분석을 수행하기 위해 API를 구부리는 방법을 아는 사람이 있습니까? 바람직하게는 R 또는 웹 기반이지만, 다른 접근법에 확실히 개방되어있다.


2
웹 스크랩 핑 LinkedIn은 서비스 약관에 위배됩니다. "DO"및 "DON'Ts"링크 참조 : DO N'T : "수동 또는 자동화 된 소프트웨어, 장치, 스크립트 로봇, 기타 수단 또는 프로세스를 사용하여 서비스 또는"스크래핑 ","크롤링 "또는"스파이더 "에 액세스 관련 데이터 또는 정보; "
Brian Spiering

답변:



3

Scrapy 는 다른 사이트를 더 빨리 긁어 내고 코드 구조를 개선하는 데 도움이되는 훌륭한 Python 라이브러리입니다. 동적 JS 컨텐츠 빌드를 사용할 수 있기 때문에 모든 사이트를 클래식 도구로 구문 분석 할 수있는 것은 아닙니다. 이 작업에는 Selenium 을 사용하는 것이 좋습니다 (이는 웹 사이트를위한 테스트 프레임 워크이지만 훌륭한 웹 스크랩 도구이기도합니다). 이 라이브러리에 사용할 수 있는 Python 래퍼도 있습니다. Google에서는 Scrapy에서 Selenium을 사용 하고 코드를 명확하고 체계적으로 작성 하는 데 도움이되는 몇 가지 트릭을 찾을 수 있으며 Scrapy 라이브러리 에 유용한 도구를 사용할 수 있습니다 .

Selenium은 기존 도구보다 Linkedin에 더 좋은 스크레이퍼가 될 것이라고 생각합니다. 자바 스크립트와 동적 콘텐츠가 많이 있습니다. 또한 계정에서 인증을 만들고 사용 가능한 모든 콘텐츠를 긁어 내려면 요청 또는 urllib 과 같은 간단한 라이브러리를 사용하여 클래식 인증에 많은 문제가 발생 합니다 .


1

관련 섹션을 선택하기 위해 SelectorGadget 크롬 플러그인과 함께 rvest 를 좋아 합니다.

나는 rvest를 사용하여 다음을 통해 포럼을 페이지 매김하기 위해 작은 스크립트를 만들었습니다.

  1. "Page n Of m"개체를 찾으십시오
  2. 추출 m
  3. 페이지 구조에 따라 1에서 m까지의 링크 목록을 작성하십시오 (예 : www.sample.com/page1).
  4. 전체 링크 목록을 통해 스크레이퍼를 반복하십시오.

0

파이썬을 알고 있다면 beautifulsoup과 함께 갈 것입니다. javascript / JQuery를 코딩하고 node.js에 익숙한 경우 CoffeeScript를 확인하고 싶을 수도 있습니다 ( 자습서 확인 ) 웹 페이지를 긁기 위해 이미 여러 번 성공적으로 사용했습니다.


0

lxml 은 파이썬에서 훌륭한 웹 스크랩 핑 라이브러리입니다. Beautiful Soup은 lxml의 래퍼입니다. 따라서 lxml은 긁히고 아름다운 수프보다 빠르며 학습 곡선이 훨씬 쉽습니다.

이것은 개인 프로젝트를 위해 내가 만든 스크레이퍼의 예이며 웹 페이지를 반복 할 수 있습니다.


0

LinkedIn에서 BeautifulSoup이 작동하지 않습니다. 스크래피가 정책을 위반합니다. Octoparse는 Windows 전용입니다. 다른 방법이 있습니까? 개인 계정의 유사 인물 데이터를 추출하고 싶습니다. 도와주세요!


1
이것을 코멘트로 올리거나 새로운 질문을하십시오
christopherlovell

이것은 중요한 정보이지만 이것이 답변이되어야한다면 질문을 제거하십시오.
Pithikos

0

여기, 나는 성공적으로 경험을 공유합니다.

Octoparse는 훌륭한 무료 웹 스크래핑 도구 입니다. Linkedin 데이터를 성공적으로 긁어내는 데 사용했으며 다음은 Linkedin에서 데이터를 추출 하는 자세한 비디오 자습서 입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.