공개적으로 사용 가능한 소셜 네트워크 데이터 세트 / API


26

공개적으로 사용 가능한 데이터 세트 목록을 확장하여 공개적으로 사용 가능한 소셜 네트워크 데이터 세트 / 크롤링 API 목록이 있는지 알고 싶습니다. 데이터 세트 / API에 대한 링크와 함께 사용 가능한 데이터의 특성이 추가되면 매우 좋습니다. 이러한 정보는 다음과 같아야하며 이에 국한되지 않습니다.

  • 소셜 네트워크의 이름;
  • 어떤 종류의 사용자 정보 (게시물, 프로필, 우정 네트워크 등);
  • API를 통해 콘텐츠를 크롤링 할 수 있는지 여부 (및 속도 : 10 / min, 1k / month, ...);
  • 단순히 전체 데이터 세트의 스냅 샷을 제공하는지 여부

추가 할 제안이나 추가 특성은 매우 환영합니다.

답변:


20

소셜 네트워크 API에 대한 몇 마디. 약 1 년 전에 저는 연구원들을위한 인기있는 소셜 네트워크 API에 대한 리뷰를 작성했습니다. 불행히도, 러시아어입니다. 요약은 다음과 같습니다.

트위터 ( https://dev.twitter.com/docs/api/1.1 )

  • 트윗 / 텍스트 및 사용자에 관한 거의 모든 데이터를 사용할 수 있습니다.
  • 사회 인구 통계 학적 데이터의 부족;
  • 뛰어난 스트리밍 API : 실시간 텍스트 처리에 유용합니다.
  • 프로그래밍 언어를위한 많은 래퍼들;
  • 네트워크 구조 (연결)를 얻는 것은 가능하지만 시간이 많이 소요됩니다 (1 분당 1 개의 요청).

페이스 북 ( https://developers.facebook.com/docs/reference/api/ )

  • 속도 제한 : 초당 약 1 개의 요청;
  • 잘 문서화 된 샌드 박스가 있습니다.
  • FQL (SQL과 유사) 및«정규 휴식»그래프 API;
  • 우정 데이터 및 사회 인구 통계 학적 특징이 존재한다;
  • 많은 데이터가 사건의 지평을 초월 합니다. 친구와 친구의 친구 데이터 만 거의 완성되지 않았으며, 임의의 사용자에 대해서는 거의 아무것도 조사 할 수 없었습니다.
  • 일부 이상한 API 버그이며 아무도 신경 쓰지 않는 것 같습니다 (예 : 그래프 API 동의어가 아닌 FQL을 통해 사용할 수있는 일부 기능).

Instagram ( http://instagram.com/developer/ )

  • 속도 제한 : 시간당 5000 요청;
  • 실시간 API (트위터 용 스트리밍 API와 같지만 사진 포함)-연결이 약간 까다 롭습니다. 콜백이 사용됩니다.
  • 사회 인구 통계 학적 데이터의 부족;
  • 사진, 필터 데이터 이용 가능;
  • 예상치 못한 결함 (예 : 게시물 / 사진에 150 개의 댓글 만 수집 할 수 있음)

Foursquare ( https://developer.foursquare.com/overview/ )

  • 속도 제한 : 시간당 5000 요청;
  • 지구 사회 데이터의 왕국 :)
  • 개인 정보 보호 문제로 인해 연구가 중단되었습니다. 체크인 데이터를 수집하려면 한 번에 4sq, bit.ly 및 twitter API를 사용하는 복합 구문 분석기를 빌드해야합니다.
  • 다시 : 사회 인구 학적 데이터의 부족.

Google+ ( https://developers.google.com/+/api/latest/ )

  • 초당 약 5 개의 요청 (확인 시도);
  • 주요 방법 : 활동과 사람들;
  • Facebook에서와 같이 임의 사용자를위한 많은 개인 데이터가 숨겨져 있습니다.
  • 사용자 연결 데이터 부족

그리고 경쟁에서 벗어남 : 나는 러시아 독자들을위한 소셜 네트워크를 검토했으며 여기에서 # 1 네트워크는 vk.com 입니다. 많은 언어로 번역되었지만 러시아와 다른 CIS 국가에서만 인기가 있습니다. API 문서는 링크 : http://vk.com/dev/ . 그리고 내 관점에서, 그것은 사제 소셜 미디어 연구를위한 최선의 선택입니다. 적어도 러시아에서는. 그 이유는 다음과 같습니다.

  • 속도 제한 : 초당 3 회 요청;
  • 사용 가능한 공개 텍스트 및 미디어 데이터;
  • 사회 인구 통계 학적 데이터 이용 가능 : 무작위 사용자 가용성 수준의 경우 약 60-70 %;
  • 사용자 간 연결도 가능합니다. 임의 사용자에 대한 거의 모든 우정 데이터가 사용 가능합니다.
  • 몇 가지 특수한 방법 : 예를 들어 정확한 사용자를 위해 온라인 / 오프라인 상태를 실시간으로 가져 오는 방법이 있으며, 청중을위한 일정을 수립 할 수 있습니다.

1
굉장한 굉장함! 나는 실제로 이와 같은 것이 많은 대답에 녹아 있기를 기대하고 있었고, 당신은 전체를 가지고 왔습니다. 좋은 작업! :)
Rubens 2016 년

1
LinkedIn, YouTube, Secret의 범위를 벗어났습니다. 다른 지역 네트워크 (QQ?) 일 수도 있습니다. 그리고 그들에 대한 정보를 얻는 것이 기쁠 것입니다.
sobach

8

소셜 네트워크 자체는 아니지만 Stackexchange는 정기적으로 전체 데이터베이스 덤프를 게시합니다.

어떤 사용자가 서로 질문하고 대답하는지 분석하여 일부 소셜 정보를 추출 할 수 있습니다. 한 가지 좋은 점은 게시물에 태그가 지정되어 하위 커뮤니티를 쉽게 분석 할 수 있다는 것입니다.


6

공개적으로 사용 가능한 소셜 네트워크 데이터 세트의 좋은 목록은 Stanford Network Analysis Project 웹 사이트에서 찾을 수 있습니다.

SNAP 데이터 세트

이 사이트에는 인터넷 소셜 네트워크 데이터 (Facebook, Twitter, Google Plus), 학술 저널 인용 네트워크, Amazon 공동 구매 네트워크 및 기타 여러 종류의 네트워크가 포함되어 있습니다. 지시 된, 무 방향 및 이분 그래프로 모든 데이터 세트는 압축 된 형태로 다운로드 할 수있는 스냅 샷입니다.


5

독일의 예 : 링크 된 사이트와 유사하지만 독일어를 사용하는 국가로 제한되는 사이트를 Xing합니다.

개발자 중심으로 연결하십시오 : https://dev.xing.com/overview

사용자 프로필, 사용자 간 대화 (사용자 자체로 제한), 구인 광고, 연락처 및 연락처 연락처, 네트워크 뉴스 및 일부 위치 정보 API에 대한 액세스를 제공합니다.

예, API가 있지만 요금에 대한 정보를 찾지 못했습니다. 그러나 일부 정보는 사용자의 동의로 제한되는 것 같습니다.


4

네트워크 리포지토리 ( http://networkrepository.com )에는 수많은 소셜 네트워크, 웹 그래프, 바이오 및 뇌 네트워크 등이 있습니다. 무엇보다도 다양한 소셜 네트워크를 비교 / 탐색 할 수있는 대화 형 시각적 분석 도구가 있습니다.


2

이러한 링크의 작은 컬렉션은 여기 에서 찾을 수 있습니다 . 그들 중 많은 사람들이 소셜 그래프입니다.


이 참고 자료를 게시 해 주셔서 대단히 감사하지만 여기에 답변이 소셜 네트워크에 공개적으로 사용 가능한 데이터 세트 / API를 가리킬 것으로 기대하고 있으며 이러한 소스에서 제공하는 내용 (게시물의 다운로드 속도 또는 정보의 종류)에 대해서도 설명합니다. 사용자 정보). 귀하의 답변으로, 공개적으로 사용 가능한 데이터 세트 목록에 오신 것을 환영합니다 .
Rubens

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.