자유롭게 사용 가능한 데이터 샘플 찾기


98

나는 하위 집합의 특성을 알지 못한 채 집단의 하위 집단을 식별하고 분리하기 위해 데이터 세트를 분석하고 파싱하는 새로운 방법을 연구하고있다. 이 방법은 인공 데이터 샘플 (예 : 모집단의 하위 집합을 식별하고 분리하기 위해 특별히 작성된 데이터 세트)에서 충분히 잘 작동하지만 실제 데이터로 테스트하려고합니다.

내가 찾고있는 것은 무료로 사용할 수있는 (즉, 기밀이 아닌 비 독점적) 데이터 소스입니다. 바람직하게는 바이 모달 (bimodal) 또는 멀티 모달 (multimodal) 분포를 포함하거나 전통적인 수단을 통해 쉽게 분리 될 수없는 다수의 부분 집합으로 구성되는 것이 바람직하다. 그러한 정보를 어디서 찾을 수 있습니까?



4
당신은 좋아할 것 getthedata.org 데이터 세트를 찾는 전용 질의 응답 사이트
제로미 Anglim

답변:



46


17

World Bank 는 많은 흥미로운 데이터를 제공하며 최근에 멋진 API 를개발하는 데 매우 적극적입니다.

또한, commugrate project에는 흥미로운 목록이 있습니다.

에 대한 미국의 건강 관련 데이터의 머리를 들어 건강 지표 창고 .

Daniel Lemire의 블로그 는 Canadian Census 1880시놉 틱 클라우드 보고서를 포함하여 몇 가지 흥미로운 예 (주로 DB 연구에 적합)를 지적 합니다 .

그리고 오늘 (2012 년 3 월 4 일) 미국 1940 년 인구 조사 기록 도 다운로드 할 수 있습니다.


2
세계 은행은 Stata와 R을 위해 열린 데이터와지도를 가지고 추가 마일리지를 달성하고 있습니다.
Fr.

13

Gapminder 에는 다수의 데이터 세트 (마지막 모양에서 430 개)가 있으며 사용하지 않을 수도 있습니다.


11

MLComp 에는 몇 가지 흥미로운 데이터 세트가 있으며 보너스로 알고리즘을 업로드하면 순위가 매겨집니다.


10

보기 좋은 곳은 Carnegie Mellon University의 데이터 및 스토리 라이브러리 또는 DASL입니다 . 여기에는 "기본 통계 방법의 사용을 설명하는 데이터 파일이 포함되어 있습니다. 교사가 가르치기위한 데이터 파일을 찾고 식별 할 수 있도록 설계되었습니다. 또한 DASL이 통계 문헌의 데이터 세트를위한 아카이브 역할을하기를 바랍니다. "


9

R을 시작하고을 입력하십시오 data(). 검색 경로의 모든 데이터 세트가 표시됩니다. 애드온 패키지에는 많은 추가 데이터 세트가 있습니다. 예를 들어, AER패키지 에는 흥미로운 실제 사회 과학 데이터 세트가 있습니다.




5

Stack Exchange 네트워크에는 이제 데이터 전용 의 새로운 사이트 인 Open Data (2015 년 3 월 5 일 현재 베타 버전)가 있습니다. 자체를 다음과 같이 설명합니다.

Open Data Stack Exchange 는 개방형 데이터에 관심이있는 개발자 및 연구원을위한 질문 및 답변 사이트입니다. Q & A 사이트의 Stack Exchange 네트워크의 일부로 사용자가 구축하고 실행합니다. 귀하의 도움으로 오픈 데이터에 대한 모든 질문에 대한 자세한 답변 라이브러리를 구축하기 위해 협력하고 있습니다.

"오픈 데이터"는 "저작권, 특허 또는 기타 제어 메커니즘의 제한없이 원하는대로 누구나 자유롭게 사용하고 다시 게시 할 수있는"데이터 세트를 의미합니다 ( Wikipedia ). 그러나이 사이트는 닫힌 데이터 집합에 대한 요청을 처리 할 수있는 것으로 보입니다 .








2

내 요구에 맞는 적절한 데이터 세트를 검색하면서이 토론과 관련된 두 사이트를 우연히 발견했습니다.

자신 을 설명하는 Datacite.org ...

우리는 다음을 목표로하는 국제 조직입니다.

  • 연구 데이터에보다 쉽게 ​​접근
  • 학술 기록에서 합법적 인 기여로 연구 데이터의 수용을 높이고
  • 추후 연구를 위해 결과를 검증하고 용도를 ​​변경할 수 있도록 데이터 보관을 지원합니다.

자신 을 설명하는 DataBib.org ...

Databib은 사람들이 연구 데이터의 온라인 저장소를 식별하고 찾을 수 있도록 도와주는 도구입니다. 사용자 및 참고 문헌 작성자는 사용자가 검색 할 수있는 데이터 리포지토리를 설명하는 레코드를 만들고 관리합니다.

다른 사람들을 위해 여기에 목록에 추가 할 가치가 있다고 생각했습니다.

이제 내 요구에 맞는 링크에서 무언가를 찾으십시오!


2

quandl.com을 확인하는 것이 좋습니다 . 이것은 데이터 프로그래머가 꿈꾸는 것입니다. 1000 만 개 이상의 다양한 데이터에 액세스 할 수있는 매우 쉬운 API를 제공합니다. 이중 모달 또는 다변량 데이터를 찾고 있으므로 다양한 인구 데이터 세트를 확인하는 것이 좋습니다. 예를 들어이 세계 인구 차트에는 하위 구성 요소 국가 및 지역이 포함됩니다.


1
일부 Quandl 데이터는 무료이며 일부 "Premium"은 $$입니다. 또한 내 API 꿈에는 시계열 nrows, ncols 및 온라인 음모가 포함되어 있습니다 (조랑말이 필요합니다).
데니스


1

시간 경과에 따른 사용

시간이 지남에 따라 사용자 인구 통계와 함께 모든 온라인 활동에 대한 데이터 요소가 포함 된 매우 큰 Excel 스프레드 시트를 다운로드 할 수 있습니다. 이 스프레드 시트를 다운로드하거나 사용하기 전에 팁 시트 (아래)를 읽으십시오.

http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx





당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.