데이터 시각화 예제, 교육 및 연구를위한 데이터 세트


9

연구중인 여러 datavis 기술을 테스트하는 데 사용할 수있는 기존 데이터 집합을 찾고 있습니다.

R에 포함 된 것과 같은 몇 가지 리소스를 알고 있습니다 (시도 plot(Orange)또는 여기 참조 ).

하지만 한 걸음 더 나아가고 싶습니다.

  • 시각화 도구를 테스트하기에 가장 적합한 실제 데이터 집합은 무엇입니까?
  • datavis에 대한 학술 논문 또는 강의 슬라이드에서 어떤 데이터 세트를 사용 했습니까?
  • 그래프의 장점을 보여주는 실제 세계에서 가장 좋은 예는 무엇입니까?

2
데이터 세트를 제공하는 링크 된 프로젝트 중 일부 (실제로는 안타깝게도)가있는 많은 실제 사례 : infosthetics.com
WSkid

1
명시 적으로 무료 데이터 세트를 찾고 있습니까?
Fomite

3
시각화는 상황과 관객 (다른 것들 중에서도)에 의존하며,이 맥락에서 "최고"가 모호하다는 것을 암시합니다. 어떤 "기술"을 연구하고 있는지 표시함으로써보다 집중적이고 적절한 답변을 얻을 수 있습니다.
whuber

1
시각화 자동화에 관한 @whuber Techniques. 가장 좋은 설명입니다. 벤치 마크에 가장 적합합니다.
robermorales

@EpiGrad 예, 가능한 한 무료입니다.
robermorales

답변:


5

인터넷에는 많은 데이터베이스가 있습니다. 주제에 따라 다른 출처를 얻을 수 있습니다.

예를 들어, 휴먼 개발 주제 영역의 데이터 소스는 (http://hdrstats.undp.org/)에 있습니다.

http://hdrstats.undp.org/en/tables/default.html

기후 변화 관측을 위해 (http://www.ipcc-data.org/)에 고해상도 기후 데이터가있는 웹이 있습니다.

http://www.ipcc-data.org/obs/cru_ts2_1.html

두 예 모두 출판 된 과학 논문에 사용 된 많은 양의 데이터와 함께 실제 데이터를 포함합니다. 시간 관련 및 / 또는 공간 관련 데이터. 이러한 데이터의 시각화 가능성은 끝이 없습니다.


이 멋진 소스에서 어떤 데이터 세트를 가장 좋아하십니까? 감사합니다
robermorales

1
시각화의 "맛"에 대한 적합성에 달려 있습니다. 예를 들어, 시계열을 탐색 / 보이기 위해 IPCC 웹은 충분한 데이터를 가지고 있으며 (기후 변화를 분석하기 위해) 널리 사용되며, 공간 데이터를 보여주기 위해 Human Development 웹 사이트에는 많은 공간 관련 데이터와 관련 데이터가 포함되어 있습니다. 시각.
Jose Zubcoff

첫 번째 링크가 끊어졌습니다 (DNS 오류).
horaceT

불행히도 첫 번째 링크가 끊어졌지만 (5 년 후) kaggle.com/datasets data.okfn.org/data data.gov data.europa.eu/euodp/en/data
Jose Zubcoff

9

회귀 분석을 수행 할 때 플로팅의 중요성을 보여주기 위해 Anscombe 데이터 세트 (R에서도 사용 가능) 를 사용하고 싶습니다 . 익숙하지 않은 경우 세트 자체가 완전히 다르게 보임에도 불구하고 네 가지 데이터 세트 모두에서 동일한 회귀선과 진단을 얻을 수 있습니다. 아래 그림을 사용하여 회귀를 수행 한 후 잔차에서 찾을 수있는 문제를 설명하기 위해 잔차 그림으로 바꿀 수 있습니다.

응답 데이터 세트


예, 우리는 그 데이터 세트를 알고있었습니다. 좋은 출발점입니다.
robermorales

주요 문제는 실제 데이터 세트가 아니라는 것입니다.
robermorales

3
@robermorales, 충분하지만, 문제의 "순수한"버전을 보면 더 복잡한 실제 시각화 / 문제를 더 쉽게 이해할 수 있다고 생각합니다.
찰리


4

William S. Cleveland는 그래픽을 많이 사용하는 두 권의 책을 보유하고 있으며, 데이터 시각화에서 그래프를 작성하기위한 데이터 및 코드는 그의 웹 사이트에 있습니다.


클리블랜드의 어떤 데이터 세트가 더 마음에 드십니까? 감사합니다
robermorales

1
@robertomorales 나는 그들이 그들의 목적을 위해 잘 선택되었다고 생각합니다. 통계 그래픽에 관심이있는 사람은 클리블랜드를주의 깊게 연구해야합니다.
Peter Flom

1
데이터 시각화에 대한 데이터lib.stat.cmu.edu/datasets/visualizing.data.zip 에서 찾을 수 있습니다. 더 이상 클리블랜드의 자체 웹 사이트에서 찾을 수 없습니다.
Nick Cox

4

아마도 당신은 이미 이것들을 알고 있지만, 여기 그들은 어쨌든 있습니다 :

UCI 기계 학습 Repositor의 Y는 많은 공개적으로 액세스 할 수있는, 실제 데이터 세트가 있습니다.

미국 정부는 많은 데이터 세트를 data.gov 에서 공개 합니다.

까다로운 시각화 데이터를 원한다면 분류 작업을 살펴 ​​보는 것이 좋습니다. UCI MLR에 설정된 Bag of Words는 멋진 속성을 가지고 있지만 실수했을 수 있습니다 (사용한 이후로 오랜 시간이 걸렸습니다).


감사! 있습니다 많은 !
robermorales

3

여기 몇 가지가 있습니다.

Sci2 도구 샘플 데이터 세트
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets
Sci2 도구와 함께 제공되는 샘플 데이터 세트.

Tableau 샘플 데이터 세트
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources
Tableau를 시작하기위한 샘플 데이터 세트입니다.

멋진 퍼블릭 데이터 세트
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
이 퍼블릭 데이터 소스 목록은 블로그, 답변 및 사용자 응답에서 수집 및 정리됩니다. 대부분의 데이터 세트는 무료이며 일부는 무료입니다.

이 글타래는 다소 낡았으며,이 충돌이 새로운 공헌을하기를 희망합니다!


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.