나는 일반적으로 줄거리를 준비 할 때 나만의 고유 한 선택을합니다. 그러나 플롯을 생성하는 모범 사례가 있는지 궁금합니다.
나는 일반적으로 줄거리를 준비 할 때 나만의 고유 한 선택을합니다. 그러나 플롯을 생성하는 모범 사례가 있는지 궁금합니다.
답변:
Tufte 원칙은 줄거리를 준비 할 때 매우 좋은 관행입니다. 그의 책 Beautiful Evidence 도 참조하십시오
원칙은 다음과 같습니다.
검색 할 용어는 정보 시각화입니다
SO
: stackoverflow.com/questions/6973394/…
우리는 모범 사례를 나타내는 하루 종일 여기에 머물 수 있지만 Tufte를 읽으면서 시작해야합니다. 나의 주요 추천 사항 :
간단하게 유지하십시오.
사람들은 종종 정보를 가지고 차트를 올리려고합니다. 그러나 당신은 정말로 당신이 전달하려는 하나의 주요 아이디어를 가지고 있어야하며 누군가가 당신의 메시지를 거의 즉시받지 못하면, 당신이 그것을 어떻게 표현했는지 다시 생각해야합니다. 따라서 메시지 자체가 명확해질 때까지 차트 작업을 시작하지 마십시오. Occam의 면도기는 여기에도 적용됩니다.
나는 분명한 메시지를 전하는 것 외에도 항상 음모를 기억하려고 노력합니다.
기본적으로이 작업을 대부분 수행하도록 플로팅 소프트웨어 (matplotlib, ROOT 또는 root2matplotlib)를 구성했습니다. 내가 사용하기 전에 gnuplot
여기에 여분의주의가 필요했습니다.
물리학 분야에는 전체 논문 / 보고서가 플롯을 신속하게 볼 때만 이해할 수 있어야한다는 규칙이 있습니다. 그래서 나는 그들이 스스로 설명해야한다고 주로 조언합니다.
이것은 또한 청중이 어떤 종류의 음모에 익숙한 지 항상 확인해야 함을 의미합니다. 한 번 모든 과학자가 상자 그림이 무엇인지 알고 있다고 가정하고 큰 시간을 낭비했다고 설명했습니다.
여기에 내가 볼 가장 일반적인 오류를 기준으로 한 내 지침이 있습니다 (기타 언급 된 다른 모든 좋은 점과 함께)
R 그래픽 라이브러리 인 ggplot2를 살펴보십시오. 자세한 내용은 웹 페이지 http://had.co.nz/ggplot2/에 있습니다. 이 패키지는 Tufte 원칙, 클리블랜드 가이드 라인 및 Ihaka 컬러 패키지를 따르는 매우 좋은 기본 플롯을 생성합니다.
색상으로 표시하는 경우, 색맹 인 사람들은 색상만으로 요소를 구별하는 데 어려움이있을 수 있습니다. 그래서:
이것들은 훌륭한 제안입니다. 우리는 http://biostat.mc.vanderbilt.edu/StatGraphCourse 에서 많은 자료를 모았습니다 . 제약 산업, 학계 및 FDA의 통계 그룹도 임상 실험 및 관련 연구에 매우 유용한 자료를 만들고 있습니다. 한 달 안에 많은 새로운 자료가 공개 될 것이지만 이미 많이 있습니다-http: //www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph
내가 가장 좋아하는 그래픽 북은 William Cleveland의 Elements of Graphing Data 입니다.
소프트웨어 측면에서 R의 ggplot2와 격자 패키지를이기는 것은 어렵다고 생각합니다. Stata는 또한 뛰어난 그래픽을 지원합니다.
다이너마이트 플롯을 사용하지 마십시오 : http://pablomarin-garcia.blogspot.com/2010/02/why-dynamite-plots-are-bad.html , 바이올린 플롯 또는 이와 유사한 (박스 플롯 가족) 사용
다른 답변은 너무 설득력이 없어서 더 일반적인 답변을 드리겠습니다. 나는이 질문으로 잠시 어려움을 겪었습니다. 나는이 과정을 제공합니다 :
나는 "간단하게 유지하라"와 같은 담요 주장에 회의적이다-그것이 무엇을 의미 하는가? 글쎄, 그것은 청중에 달려 있습니다. 일부 관객은 Tufte 스타일을 먹습니다. 그러나 일부 관객들은 때때로 작은 차트 쓰레기를 좋아합니다. 어떤 사람들은 산점도에 의해 지루합니다. 어떤 사람들은 화려한 배경을 좋아합니다. "미적"순도를 훼손하더라도 조금 참여하는 것이 잘못입니까? 결정하는 것은 당신에게 달려 있습니다.
청중의 반응은 중요한 피드백이지만 유일한 것은 아닙니다. 당신은 그들의 이해를 측정하는 방법을 발견하면 이전 과 이후를 프레젠테이션을, 당신은 당신이 만든 미치는 영향을 이해하기 시작합니다.
"올바른"답변은 다음과 같은 종류의 질문에 달려 있습니다.
어떤 미디어를 사용 하시겠습니까?
정적 또는 대화식 플롯을 작성 중입니까?
미리 정의 된 이야기 (박람회)를 말하거나 실험 (탐사)을 장려하고 있습니까?
청중이 어느 정도 자신의 결론을 도출하기를 원하십니까?
청중이 당신의 이야기를 따라 가고 확신하기를 원하는 정도까지?
청중이 조사 결과에 어느 정도 도전하기를 원하십니까?
요약하면 메시지, 대상 및 제약 조건을 고려하여 자료를 디자인 하십시오.
Tufte가 언급 한 다른 답변에없는 것은 기억하는 것 중 하나는 매핑 입니다. 즉, 그래프의 위치, 방향, 크기 등을 현실로 나타냅니다. . 그래프에서 나타나는 것은 실제 세계에서 일어나야합니다. 큰 것은 커야합니다 (영역은 면적과 볼륨을 나타내야한다는 것을 명심하십시오. 영역별로 스칼라 값을 나타내려고하지 마십시오. 매우 모호합니다!). 색상, 모양 등이 관련이있는 경우에도 적용됩니다.
흥미로운 예는 여기 "스커트 시리즈"그래프입니다 : http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . 기술적으로는 정확하고 "더 큰"치마 길이는 그래프에서 더 높은 위치를 차지하지만 치마 길이는 위에서 부터 시작하여 내려 갑니다 (사람이나 나무와 달리 높이를 측정하는 경우). 바닥). 따라서 치마 길이가 길어지면 실제로 더 낮은 값을 나타냅니다 .
skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))
항상 그렇듯이 어려움이 있습니다. 예를 들어, 우리는 일반적으로 앞으로 나아갈 시간을 고려하고, 적어도 서쪽에서는 왼쪽에서 오른쪽으로 읽으므로 시계열 그래프는 일반적으로 시간이 증가함에 따라 왼쪽에서 오른쪽으로 흐릅니다. 따라서 시간이 지남에 따라 측면으로 가장 잘 표현 된 것 (예 : 동서 측정)을 나타내려면 어떻게됩니까? 이 경우 타협하고 시간을 위 또는 아래로 이동하는 시간을 묘사하거나 (문화적 인식에 따라 다시 결정되는 시간) 그래프에서 측면 변수를 위 / 아래로 매핑하도록 선택해야합니다.
플롯이 논의되는 방식에 따라 다릅니다.
예를 들어, 다른 위치에서 온 발신자와 함께 할 그룹 회의에 대한 음모를 보내려면 Excel과 달리 Powerpoint에 모으기를 선호하므로 뒤집기가 더 쉽습니다.
일대일 기술 통화의 경우 클라이언트가 플롯을 옆으로 이동하고 원시 데이터를 볼 수 있도록 Excel에 무언가를 넣을 것입니다. 또는 측면 회귀 계수를 따라 p- 값을 셀에 입력 할 수 있습니다 (예 :
명심하십시오 : 음모는 특히 슬라이드 쇼나 그룹으로 이메일을 보낼 때 저렴합니다. 차라리 동일한 그래프에 별개의 동질 집단 (예 : "남성과 여성")을 배치하려고하는 5 개의 플롯보다 뒤집을 수있는 10 개의 명확한 플롯을 만들고 싶습니다.