많은 데이터를 그래픽으로 표시하는 좋은 방법


15

주택 데이터에 대한 14 개의 변수와 345,000 개의 관찰 (연도, 평방 피트, 판매 가격, 거주지 등)을 포함하는 프로젝트를 진행하고 있습니다. 좋은 그래픽 기술과 멋진 플로팅 기술을 포함하는 R 라이브러리를 찾으려고 노력하고 있습니다.

나는 ggplot과 격자에서 무엇이 잘 작동하는지 이미보고 있으며, 숫자 변수에 대한 바이올린 플롯을 생각하고 있습니다.

사람들이 명확하고 세련되며 가장 중요한 간결한 방식으로 많은 양의 숫자 또는 요인 유형 변수를 표시하기 위해 사람들이 권장하는 다른 패키지는 무엇입니까?


"명확하고, 세련되고, 가장 중요한 간결한 방식"ggplot2처럼 들립니다.
Brandon Bertelsen

1
R 라이브러리뿐만 아니라 특정 유형의 그래프도 찾고 있습니다. 그래프에 대한 나의 지식은 산포, 상자, qq, 히스토그램, 바이올린, 커널 밀도 추정 등으로 제한됩니다. 데이터보다 더 잘 드러날 수있는 약간 더 모호한 그래프는 환상적입니다.
Christopher Aden

2
평행 좌표는 언급 할 다른 것과 같은 소리를 조정합니다. 차원 축소 방법도 도움이 될 수 있습니다.
탈 Galili

답변:


13

최고의 "그래프"는 아직 아무도 언급하지 않은 것이 분명합니다.지도를 만드십시오. 주택 데이터는 (부동산에 관한 오래된 톱에 따르면) 공간적 위치에 근본적으로 의존하기 때문에 가장 먼저해야 할 일은 각 변수의 명확한 상세지도를 만드는 것입니다. 백만 포인트의 3 분의 1로이 작업을 제대로 수행하려면 실제로 공정을 단축 할 수있는 강력한 산업 GIS가 필요합니다. 그런 다음 일 변량 분포를 탐색하고 산점도 행렬과 방랑 도식 상자 그림 등을 플롯하여 종속성을 탐색하기 위해 계속해서 확률도 및 상자 그림을 만드는 것이 합리적입니다. 그러나 맵은 즉시 탐색 대상, 모델링 방법 데이터 관계 및 데이터를 지리적으로 의미있는 하위 집합으로 나누는 방법.


좋은 생각이야! 나는 모든 데이터 포인트의 위도와 경도를 이미 가지고 있으므로 그러한 작업은 비교적 기본적입니다. 더 좋은 것이 없다면지도 라이브러리가 좋은 방법이라고 생각했습니다.
Christopher Aden

2
@Christopher 당신은 또한 ggplot2(국가 경계를 그릴 필요가 없다면 ) had.co.nz/ggplot2/coord_map.html로 이것을 할 수 있습니다. 그렇지 않으면 maps, gmaps더 낫다. GeoXpGRASS에 대한 R 인터페이스 도 있습니다 . BTW, Mondrian은 지리 데이터를위한 플러그인을 가지고 있습니다 :)
chl

몇 가지 훌륭한 제안이있을 때는 최선의 답변을 지정하는 것이 어려울 수 있지만 이것이 간결성을 염두에두고 올바른 방향이라고 생각합니다. ggplot2를 사용 해보고 맵, GeoXp 및 Mondrian을 살펴 보겠습니다. 공간적으로 그래프를 작성한다는 아이디어에 감사드립니다!
Christopher Aden


나는 좋은 성공 했어 lattice'의 levelplotcontourplot. 패키지 fields에는 quiltplot데이터가 그리드에 엄격하게 포함되어 있지 않은 경우를 포함하여 멋진 기능 이 있습니다. 또한 Tps그리드가 아닌 데이터를 그리드로 스무딩 하는 멋진 얇은 플레이트 스플라인 기능 이 있습니다. 전용 GIS 소프트웨어의 경우 GRASS는 결코 이해가되지 않습니다. QGIS를 선호합니다.
Wayne

6

적어도 탐색 목적으로 R 인터페이스가있는 GGobi를 살펴 보는 것이 좋습니다 . 여기에는 많은 수의 관찰 및 변수를 처리하고 이들을 서로 연결하는 데 특히 유용한 여러 그래픽 디스플레이가 있습니다. GGobi 배우기 페이지 의 "데모보기"섹션에서 일부 비디오를 보면서 시작할 수 있습니다 .

최신 정보

의견에서 chl이 제안한 GGobi를위한 Hadley Wickham의 도구에 대한 링크 :

  • DescribeDisplay "R에서 곽비 그래픽을 재생성하는 방법을 제공하는 R 패키지"
  • clusterfly "높은 차원의 클러스터링 결과 탐색"
  • rggobi " GGobi와의 쉬운 인터페이스를 제공하는 R 패키지"

1
@ars GGobi 경험을 향상시키기 위해 Hadley의 R 도구를 추가해 보겠습니다 (예 : DescribeDisplay및) clusterfly.
chl

내 대답에 쓴 안녕 ars-ggobi에 대한 나의 경험은 큰 데이터 세트를 잘 처리하지 못한다는 것입니다. 그것에 대해 또 다른 경험이 있습니까?
탈 Galili

@Tal 문제는 화면 표시 / 렌더링에 글리프에 의존하지 않기 때문에 발생합니다. 이는 R 기본 그래픽에서 일반적입니다. 이것은 최신 DSC 컨퍼런스 ( j.mp/bpOhBH ) 에서 논의되었습니다 . 실제로 Qt를 백엔드로 사용하고 새로운 포트 인 GGobi를 사용하여 대규모 데이터 세트의 대화식 표시를 향상시키는 프로젝트가 진행 중입니다.
chl

1
@Tal : 내 경험은 뷰를 새로 고치거나 다시 칠할 때 (예 : 변수를 추가하거나 PCP에서 디스플레이를 다시 정렬 할 때) 느리다는 것입니다. 그럼에도 불구하고 큰 데이터로 광고 된 것처럼 대화식이 아니지만 사용할 수 있습니다. @chl : 정말 감사합니다!
ars

1
@ars @Tal 다음은 R ( j.mp/d1AJp7 ) 및 GGobi ( j.mp/cUOvfp ) 에 대한 Qt 인터페이스의 링크입니다 . Hadley의 Github 저장소도 참조하십시오!
chl

6

실제로 1) 사용할 시각화 유형과 2) R 패키지가 생성 할 수있는 두 가지 질문을 실제로하고 있다고 생각합니다.

사용할 그래프 유형의 경우 많은 유형이 있으며 필요에 따라 다릅니다 (예 : 변수 유형-숫자, 요인, 지리적 등 및 표시 할 연결 유형).

이제 어떻게해야하는지에 대해 많은 데이터 포인트의 한 가지 문제는 플롯이 생성 될 때까지의 시간입니다. ggplot2, iplots, ggobi는 (적어도 내 경험으로는) 너무 많은 데이터 포인트에는 좋지 않습니다. 어떤 경우에는 R 기본 그래픽 기능에 중점을 두거나 데이터를 샘플링하여 다른 모든 도구를 사용할 수 있습니다. 또는 iplots 익스트림 (또는 Acinonyx )을 개발하는 사람들 이 사전 릴리스 단계에 도달하기를 바랍니다.


에 대한 링크 rflowcyt와 Acinonyx 에 감사드립니다 .
chl

BTW rflowcyt는 Bioconductor의 최신 릴리스에서 더 이상 사용되지 않으므로 이제 사용하는 것이 좋습니다 flowViz. 어쨌든 둘 다에 의존합니다 lattice.
chl

매우 철저한 답변, 탈! 플롯 생성 시간이 큰 문제가되어서는 안됩니다. 나는 기본 패키지로 대부분의 그래프를 해왔으며 그래프를 더 멋지게 보이게하는 문제는 종이에 그래프를 사용하기로 결정했을 때였습니다. 나는 숫자 변수에 산점도 행렬을 사용하는 것을 고려했지만 많은 변수가 다른 단위 (일부는 달러, 다른 것은 평방 피트)이기 때문에 얻을 수있는 유일한 귀중한 정보는 일반적인 추세이지만 ~ 8 숫자 변수의 경우 8x8 SPM이 약간 복잡합니다.
Christopher Aden

3

Mondrian 은 대화식 기능을 제공하고 상당히 큰 데이터 세트를 처리합니다 (Java로되어 있음).

Paraview 에는 2D / 3D viz가 포함됩니다. 풍모.


두 개의 새로운 라이브러리에 감사드립니다. 이 두 가지와의 주요 충돌은 종이 사본을 통해 보고서를 제출하는 것이므로 대화식 그래픽이 완전히 사용되지 않을 수 있습니다. 몬드리안의 그래픽은 매우 복잡해 보입니다. 나는 그것을 볼 것이다.
Christopher Aden

@Christopher Mondrian의 경우 iplots@Tal이 인용 한 "동등한"R 버전이 있습니다. Paraview에 대해서는 viz의 스크린 샷을 저장하는 옵션이 있습니다. DescribeDisplayGGobi, cran.r-project.org/web/packages/DescribeDisplay/index.html 에서 동적 시각화를 내보내는 방법 입니다.
chl

-3

이 분야 의 최신 혁신과 응용 프로그램이 포함 된 평행 좌표 : Visual Multidimensional Geometry 및 해당 응용 프로그램에 주의를 기울이고 싶습니다 .

이 책은 Stephen Hawking이 칭찬했습니다. 표면은 점에서 법선 벡터로 설명됩니다 (이중성을 사용하여). 항공 교통 관제 (자동 충돌 방지-3 미국 특허), 다변량 데이터 마이닝 (수백 가지 변수가있는 실제 데이터 세트), 다목적 최적화, 프로세스 제어, 집중 치료 스마트 디스플레이, 보안, 네트워크 시각화 및 최근에 대한 응용 프로그램이 포함되어 있습니다. 데이터.


5
안녕하세요 Alfred, 사이트에 참여해 주셔서 감사합니다. 아마도 OP의 데이터 세트 (14 개의 변수 및 345,000 개의 관측치)와 유사한 예를 통해 그림을 제공하고 평행 좌표가 어떻게 유용 할 수 있는지 설명 / 설명 할 수 있습니까? 내가 본 많은 정적 평행 좌표 차트는 많은 관측치가 접시에 스파게티처럼 보이는 경향이 있습니다.하지만 큰 N 데이터를 이해하는 방법에 대한 더 나은 통찰력이 있다고 생각합니다.
Andy W

안녕 앤디, 나는 그 많은 관찰에 대한 예가 없습니다. 에
알프레드 잔구

안녕 앤디, 나는 그 많은 관찰에 대한 예가 없습니다. 상호 작용은 데이터 탐색에 필수적입니다. 셀룰러 전화 네트워크에서 약 800 개의 변수와 10,000 개의 관측치로 데이터 세트를 작업하여 "신비한"실패를 발견했습니다. 분류기를 단계별로 사용하고 대화식으로 책임을지는 11 개의 변수가 발견되었으며 시간이 지남에 따라 변수를 거꾸로 추적했습니다.
Alfred Inselberg
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.