공개적으로 사용 가능한 데이터 세트


167

데이터 과학의 일반적인 문제 중 하나는 여러 소스에서 데이터를 어떻게 정리 (반 구조화 된) 형식으로 수집하고 다양한 소스의 메트릭을 결합하여 더 높은 수준의 분석을 수행하는 것입니다. 다른 사람들의 노력, 특히이 사이트의 다른 질문들을 보면이 분야의 많은 사람들이 다소 반복적 인 일을하고있는 것 같습니다. 예를 들어 트윗, 페이스 북 게시물, 위키 백과 기사 등을 분석하는 것은 많은 빅 데이터 문제의 일부입니다.

이러한 데이터 세트 중 일부는 제공자 사이트에서 제공하는 공용 API를 사용하여 액세스 할 수 있지만 일반적으로 일부 API 또는 유용한 정보가 누락되어 동일한 분석을 반복해서 수행해야합니다. 예를 들어 클러스터링 사용자는 서로 다른 사용 사례와 기능 선택에 의존 할 수 있지만 Twitter / Facebook 사용자의 기본 클러스터링은 API가 제공하지 않거나 독립적 인 데이터 세트로 공개적으로 제공되지 않는 많은 빅 데이터 애플리케이션에 유용 할 수 있습니다. .

다른 빅 데이터 문제를 해결하는 데 재사용 할 수있는 유용한 데이터 세트가 포함 된 인덱스 또는 공개적으로 사용 가능한 데이터 세트 호스팅 사이트가 있습니까? 데이터 과학에 대한 GitHub (또는 사이트 / 공개 데이터 집합 또는 적어도 포괄적 인 목록)와 같은 것을 의미합니다. 그렇지 않다면 데이터 과학을위한 플랫폼이없는 이유는 무엇입니까? 데이터의 상업적 가치는 데이터 세트를 자주 업데이트해야합니까? 데이터 과학자를 위해 고안된 데이터 세트를 공유하기위한 오픈 소스 모델을 가질 수 없습니까?


18
이 질문은 전용 opendata.SE 에서 더 적합 할 수 있습니다 . 즉, 나는 "데이터를위한 힘"이되기를 갈망하는 dat를 위해 손가락을 건 cross 다 .
ojdo

2
@ojdo 고마워, 나는 opendata.SE에 대해 들어 본 적이 없으며, 흥미로운 (그리고 매우 유사한) 질문 도 발견 했습니다.
Amir Ali Akbari


일반적인 비즈니스 인텔리전스 응용 프로그램에 대한 훌륭한 무료 종합 데이터 세트를 찾지 못했습니다. 공식 Microsoft에서 소매 산업을위한 마이크로 소프트에 Contoso BI 데모 데이터 집합 다운로드 다운로드 일부 Microsoft 제품 (참조 작동 SharePoint 및 기타 비즈니스 소프트웨어에 AndyGett을 ),하지만 난 어떤 일반 SQL 또는 그것의 CSV 덤프, 나에 대한 라이센스 정보가 표시되지 않습니다 .
nealmcb

1
Open Data Stack Exchange에 가입 ​​했습니까? opendata.stackexchange.com
sss4r

답변:


87

실제로 서로 다른 기업 / 소스가 지원하는 공개적으로 사용 가능한 데이터 집합의 매우 합리적인 목록이 있습니다.

그들 중 일부는 다음과 같습니다.

이제 질문에 대한 두 가지 고려 사항이 있습니다. 첫 번째는 데이터베이스 공유 정책에 관한 것입니다. 개인 경험으로는 개인 정보 보호 제한 (소셜 네트워크 정보와 같은) 또는 정부 정보 (예 : 건강 시스템 데이터베이스)와 관련하여 공개적으로 사용할 수없는 일부 데이터베이스가 있습니다.

또 다른 요점은 데이터 세트의 사용 / 적용에 관한 것입니다. 일부베이스는 애플리케이션의 요구에 맞게 재 처리 될 수 있지만 목적에 따라 데이터 세트를 훌륭하게 구성 하는 것이 좋습니다. 분류는 소셜 그래프 분석, 항목 집합 광업, 분류 및있을 수있는 다른 연구 분야의 많은을 포함한다.


64

37

공개적으로 사용 가능한 많은 데이터 세트가 있으며, 많은 사람들이 간과하는 경우가 종종 data.gov 입니다. 앞에서 언급했듯이 Freebase는 훌륭하므로 @Rubens가 게시 한 모든 예제가 있습니다.


35

Freebase 는 많은 흥미로운 주제에 걸쳐 있고 기계 판독 가능한 형식으로 약 25 억 개의 사실을 포함하는 무료 커뮤니티 중심 데이터베이스입니다. 또한 데이터 쿼리를 수행하는 데 유용한 API가 있습니다.

다음은 열린 데이터 세트의 또 다른 컴파일 된 목록입니다. http://www.datapure.co/open-data-sets


Freebase가 종료 되고 데이터베이스가 곧 Wikidata 로 이동합니다 .
cynddl 2014



20

Enigma 는 공개적으로 사용 가능한 데이터 세트의 저장소입니다. 무료 요금제는 매월 10k API 호출로 공개 데이터 검색을 제공합니다. 모든 공용 데이터베이스가 나열되는 것은 아니지만 일반적인 경우에는이 목록으로 충분합니다.

나는 학문 연구에 사용했고 많은 시간을 절약했습니다.


또 다른 흥미로운 데이터 소스는 @unitedstates 프로젝트 인데, 여기에는 미국 (국회 의원, 지리적 모양 등)에 관한 데이터 및 데이터를 수집하는 도구가 포함되어 있습니다.


18

Open Data Census 를 가리키고 싶습니다 . 전 세계의 개방형 데이터 옹호자와 전문가의 기여를 기반으로 한 Open Knowledge Foundation의 이니셔티브입니다.

Open data Census의 가치는 국가 및 일부 경우 미국과 같은 도시 수준 에서 열린 데이터 집합의 데이터베이스를 수집하고 업데이트하기위한 개방적이고 커뮤니티 중심이며 체계적인 노력 입니다.

또한 선택한 관심 분야에서 다른 국가와 도시를 비교할 수있는 기회를 제공합니다.


18

The Guardian에서 제공하는 또 다른 자료 인 British Daily도 웹 사이트에 있습니다. Guardian Datablog가 게시 한 데이터 세트는 모두 호스팅됩니다. Football Premier League Clubs 계정, 영국의 인플레이션 및 GDP 세부 정보, 그래미 어워드 데이터 등과 관련된 데이터 세트.

더 많은 자료. 일부 데이터 세트는 R 형식이거나 R 쉼표는 데이터를 R로 직접 가져 오기 위해 존재합니다.


17

맞춤 Google 검색

데이터 세트에 맞춤 Google 검색을 사용할 수 있습니다.

Google 맞춤 검색 : 데이터 세트

여기에는이 질문에 언급 된 모든 것을 포함하여 230 개의 소스 및 데이터 세트의 메타 소스가 포함됩니다. 검색 창에 "-.gov"또는 "-site.com"을 추가하여 .gov 및 기타 웹 사이트를 검색 결과에서 제외하십시오. 다른 Google 검색 연산자가 작동합니다.

어떤 웹 사이트를 추가해야할지 생각이 있으시면 언제든지 저에게 연락하십시오.

IOGDS

다음 서비스는 1,000,000 개 이상의 공개 데이터 세트를 분류합니다.

IOGDS : 국제 공개 정부 데이터 셋 검색


제공 한 맞춤 검색 링크에 대한 매개 변수는 무엇입니까? 웹 사이트, 키워드 등의 목록에서 검색합니까?
Amir Ali Akbari

@AmirAliAkbari Data.gov, Quandl 및 기타 주요 데이터웨어 하우스와 같은 소스를 검색합니다.
Anton Tarasenko





14

이 포럼을 처음 사용합니다. 이 질문에 늦게 Chiming. 공개적으로 사용 가능한 데이터 포털 카탈로그를 유지 관리하고 있습니다 (공동 설립자). 현재 전 세계적으로 1000 개가 넘는 국제, 연방, 주, 도시 및 학문 수준의 포털이 있습니다.

http://www.opengeocode.org/opendata/


14

그것은 매우 분명 보인다 내가, 하나는이 문제를 언급하지 않은 놀랍 : http://www.kaggle.com 지속적으로 새롭고 흥미로운 데이터 집합을 가지고있다. 정보는 자산으로 간주되므로 회사는 종종 해당 데이터를 공개하지 않기를 원합니다 (개인 정보 보호 문제 포함). Kaggle은 데이터를 제공하며 비즈니스 문제를 해결하기 위해이를 교환하기를 희망합니다.


14

1
두 데이터 세트 / 링크에 대한 정보를 제공해 주시겠습니까? 이것은 특정 유형의 데이터 세트를 찾는 사람들의 부담을 덜어 줄 것입니다. 다른 게시물을 검토하여 참조가 누락 된 정보를 확인하십시오.
Rubens

11

언급했듯이 API는 데이터가 아니라 어려운 부분입니다. Quandl 은 하나의 쉬운 RESTful API하에 공개적으로 사용 가능한 천만 개 이상의 데이터 세트를 제공 함으로써이 문제를 해결하는 것 같습니다. 프로그래밍이 적합하지 않은 경우 Excel에 데이터를 매우 쉽게로드 할 수있는 무료 도구가 있습니다. 당신이 경우 또한 프로그램을 즐길 수있는 몇 가지 기본 라이브러리가 R, 파이썬, 자바와 더 .





9

내가 보지 않은 다른 데이터 소스는 GDELT 프로젝트 입니다. 사이트에서 :

GDELT 프로젝트는 모든 국가의 거의 모든 곳에서 100 개 이상의 언어로 전 세계의 방송, 인쇄 및 웹 뉴스를 모니터링하고 매일 매일 초마다 글로벌 사회를 이끄는 사람, 위치, 조직, 수, 테마, 소스 및 이벤트를 식별합니다. 전 세계에서 컴퓨팅을위한 무료 개방형 플랫폼을 만듭니다.


8

이 하위 레딧에는 알려진 많은 데이터 세트가 나열됩니다

레딧 데이터 셋

해당 하위 레딧에 대해 많은 데이터 집합 요청이 있으며 그 중 일부가 응답되었습니다.


6

이를 위해 github 저장소를 만들었습니다. 데이터 세트는 크지 않지만 예측 모델링 기술을 연습하고 탐구하여 큰 데이터 세트로 확장 할 수있는 최소한의 예입니다.

기계 학습 문제 성경 (MLPB)

이 리포지토리의 멋진 점은 모든 문제에 [멀티 클래스], [언밸런스 드 데이터], [회귀] 등과 같은 태그가 포함되어있어 특정 유형의 문제 / 데이터 집합을 쉽게 찾을 수 있다는 것입니다.



6

인도와 관련된 데이터에 관심이있는 경우 이러한 모든 데이터 세트 외에도. 인도 정부의 공식 공식 사이트는

빅 데이터 분석 및 머신 러닝에 잘 사용될 수있는 인도 정부의 여러 부서의 데이터 세트를 제공합니다.



4

MASS 패키지를 R에로드하기 만하면 여러 데이터 프레임 또는 데이터 세트에 액세스 할 수 있습니다.

install.packages ( "MASS") require ( "MASS")


3

https://www.jc-bingo.com/about의 3 가지 데이터 세트

  • visitor-interests.csv 1 주간의 웹 액세스 로그를 기반으로 집계 된 집계 된 방문자 관심 분야입니다. 방문자 IP 주소, 사용자 에이전트 문자열, 방문자 국가, 액세스 한 페이지 언어 및 주제를 포함합니다. 19,926 개 레코드, 2.9Mb.
  • user-agents.csv 인기순으로 실제 방문자 사용자 에이전트. 4,826 레코드, 716 Kb.
  • bots.csv 웹 액세스 로그에서 추출한 로봇 IP 주소 및 사용자 에이전트 문자열. 1,293 개 기록, 122Kb.

3

분명히 많은 공용 데이터베이스 세트가 있습니다.

아직 언급되지 않은 것은 유엔 식량 농업기구 ( FAO )에서 발췌 한 것입니다.

http://www.fao.org/faostat/

전 세계 국가의 식품 생산에 대한 데이터가 포함되어 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.