줄거리를 준비 할 때 어떤 모범 사례를 따라야합니까?

40

나는 일반적으로 줄거리를 준비 할 때 나만의 고유 한 선택을합니다. 그러나 플롯을 생성하는 모범 사례가 있는지 궁금합니다.

참고 : 이 질문 에 대한 답변에 대한 Rob의 의견 은 여기에 매우 관련이 있습니다.

data-visualization references

— 개정 , 5 사용자 47 % 사용자 28
소스

23

Tufte 원칙은 줄거리를 준비 할 때 매우 좋은 관행입니다. 그의 책 Beautiful Evidence 도 참조하십시오

원칙은 다음과 같습니다.

높은 데이터 잉크 비율 유지
차트 정크 제거
그래픽 요소에 여러 기능 제공
데이터 밀도를 명심하십시오

검색 할 용어는 정보 시각화입니다

— 피터 스밋
소스

4

Tufte의 양적 정보 시각적 표시 ( amazon.com/o/ASIN/0961392142/ref=nosim/gettgenedone-20 )가 Beautiful Evidence IMO보다 좋습니다. 그의 네 권의 책은 모두 훌륭하지만 그의 과정 중 하나에 참석할 기회가 있다면 그것을하십시오.

— Stephen Turner

5

나는 Tufte가 말한 대부분의 내용에 동의하지만, 그의 낮은 데이터 : 잉크 상자 그림 은 단순한 바보입니다. 표준 박스 플로트보다 3-4 배 더 오래 걸리는 것 같습니다. R 기본값은 훨씬 낫습니다 (꼬리 끝에있는 선은 필요하지 않지만). 전통적인 박스 플롯은 샘플 크기 (너비 포함)와 표준 편차 (노치 포함)를 나타낼 수 있다는 이점이 있습니다.

— naught101

2

+1 @ naught101 몇몇 다른 사람들이이 의견을 다음에서 공유합니다 SO: stackoverflow.com/questions/6973394/…

— Ben

15

우리는 모범 사례를 나타내는 하루 종일 여기에 머물 수 있지만 Tufte를 읽으면서 시작해야합니다. 나의 주요 추천 사항 :

간단하게 유지하십시오.

사람들은 종종 정보를 가지고 차트를 올리려고합니다. 그러나 당신은 정말로 당신이 전달하려는 하나의 주요 아이디어를 가지고 있어야하며 누군가가 당신의 메시지를 거의 즉시받지 못하면, 당신이 그것을 어떻게 표현했는지 다시 생각해야합니다. 따라서 메시지 자체가 명확해질 때까지 차트 작업을 시작하지 마십시오. Occam의 면도기는 여기에도 적용됩니다.

— 셰인
소스

1

나는이 점의 대다수에 동의하지만 "간단하게 유지"한다고 생각합니다. 명확하지 않을 수 있습니다. 당신의 주요 요점은 차트가 무엇을 전달할 것인지 알아야한다는 것입니다. "간단하게 유지하십시오." Tufte가 권장하는 "데이터 : 잉크 비율이 높아야합니다."및 "Tufte가 권장하지 않는 변수를 3 개 이하로 제시"와 같은 다른 아이디어가 나타납니다.

— 토마스 레바인

분명히이 조언은 정반대보다 훨씬 낫습니다. 그러나 그래프가 반드시 복잡하고 상세하고 신중하며 신중한 연구가 필요한 상황이 있습니다. 그러나 합병증 자체는 가능한 한 간단해야합니다. 예를 들어, 5 x 5 행렬의 25 개 플롯은 연장 된 연구가 필요할 수 있지만, 각각의 데이터 만 보여주는 아이디어는 비교적 이해하기 쉽습니다.

— Nick Cox

12

내가 항상 따르지는 않지만 때로는 유용한 유용한 규칙 중 하나는 당신의 음모가 미래의 어느 시점에서 나타날 것임을 고려하는 것입니다

팩스로 보냄
복사 및 / 또는
흑백으로 재현.

음모가 미래에 정확하게 재현되지 않더라도 음모가 전달하려고하는 정보가 여전히 읽을 수있을 정도로 음모를 명확하게 시도해야합니다.

— 토마스 레빈
소스

14

나는 당신이 과거 어느 시점에서 팩스로 보낸 것을 의미한다고 생각합니다 .)

— hadley

이것을 위해 +1. 내가 인쇄 한 논문의 핵심 인 당신의 음모를 전혀 이해할 수 없어야합니다.

— Fomite

이 답변 은 비슷한 문제를 해결합니다.

— naught101

8

나는 분명한 메시지를 전하는 것 외에도 항상 음모를 기억하려고 노력합니다.

레이블 및 범례의 글꼴 크기는 충분히 커야하며, 최종 게시에 사용 된 글꼴 크기와 글꼴이 동일해야합니다.
선폭은 충분히 커야합니다 (그림이 약간만 줄이면 1pt 선이 사라지는 경향이 있습니다). 선폭 3 ~ 5 pt로 가려고합니다.
여러 데이터 세트 / 곡선을 색상으로 플로팅하는 경우 흑백으로 인쇄하는 경우 (예 : 색상 이외의 다른 기호 또는 선 스타일을 사용하여) 이해할 수 있는지 확인하십시오.
항상 무손실 (또는 무손실에 가까운) 형식 (예 : pdf, ps 또는 svg 또는 고해상도 png 또는 gif와 같은 벡터 형식)을 사용하십시오 (jpeg는 전혀 작동하지 않으며 라인 아트 용으로 설계되지 않았습니다).
출판물에 사용될 최종 종횡비의 그래픽을 준비합니다. 나중에 종횡비를 변경하면 자극적 인 글꼴 또는 기호 모양이 생길 수 있습니다.
사용하지 않은 히스토그램 정보, 추세선 (거의 유용하지 않음) 또는 기본 제목과 같은 플로팅 프로그램에서 쓸모없는 혼란을 제거하십시오.

기본적으로이 작업을 대부분 수행하도록 플로팅 소프트웨어 (matplotlib, ROOT 또는 root2matplotlib)를 구성했습니다. 내가 사용하기 전에 gnuplot여기에 여분의주의가 필요했습니다.

— Benjamin Bannier
소스

8

물리학 분야에는 전체 논문 / 보고서가 플롯을 신속하게 볼 때만 이해할 수 있어야한다는 규칙이 있습니다. 그래서 나는 그들이 스스로 설명해야한다고 주로 조언합니다.
이것은 또한 청중이 어떤 종류의 음모에 익숙한 지 항상 확인해야 함을 의미합니다. 한 번 모든 과학자가 상자 그림이 무엇인지 알고 있다고 가정하고 큰 시간을 낭비했다고 설명했습니다.

— 88
소스

박스 플롯 경험에 대한 동정심, 그러나 이것이 암시하는 것은 (a) 중심에있는 컨벤션을 기반으로 한 것을 보여주는 것이 아니라 상대적으로 간단한 변형 (예 : 중간 값, 사 분위수, 5 % 및 95 % 포인트 및 모든 데이터 포인트 표시)을 사용하는 것입니다. 1.5 IQR; (b) 자막 제작 규칙을 명시 적으로 추가

— Nick Cox

6

여기에 내가 볼 가장 일반적인 오류를 기준으로 한 내 지침이 있습니다 (기타 언급 된 다른 모든 좋은 점과 함께)

요소 순서가 관련이없는 경우 선 그림이 아닌 산포 그래프를 사용하십시오.
비교할 플롯을 준비 할 때 모든 플롯에 동일한 배율을 사용하십시오.
더 나은 방법-데이터를 단일 그래프로 결합하는 방법을 찾으십시오 (예 : 상자 그림은 여러 분포를 비교하기 위해 여러 히스토그램보다 낫습니다).
단위를 지정하는 것을 잊지 마십시오
필요한 경우에만 범례를 사용하십시오. 일반적으로 커브에 직접 레이블을 지정하는 것이 더 명확합니다.
범례를 사용해야하는 경우 빈 영역의 플롯 내부로 이동하십시오.
선 그래프의 경우 페이지와 대략 45o 인 선을 생성하는 종횡비를 목표로합니다 .

— 보세 키나
소스

"상자 그림은 다수의 분포를 비교하기 위해 여러 히스토그램보다 낫습니다." -데이터가

— 단조롭지 않고

6

R 그래픽 라이브러리 인 ggplot2를 살펴보십시오. 자세한 내용은 웹 페이지 http://had.co.nz/ggplot2/에 있습니다. 이 패키지는 Tufte 원칙, 클리블랜드 가이드 라인 및 Ihaka 컬러 패키지를 따르는 매우 좋은 기본 플롯을 생성합니다.

— 비스킷
소스

6

색상으로 표시하는 경우, 색맹 인 사람들은 색상만으로 요소를 구별하는 데 어려움이있을 수 있습니다. 그래서:

선 스타일을 사용하여 선을 구별하십시오.
요소에 여분의 무게를 사용하고 선폭을 2pt 이상으로하십시오.
포인트를 구별하기 위해 다른 마커와 색상을 사용하십시오.
위치와 스타일을 참조하면서 레이블과 주석을 사용하십시오.
텍스트에서 플롯 요소를 참조 할 때 색상, 상대 위치 및 스타일을 기준으로 설명하십시오 : "빨간색, 위, 대시-점 곡선"
색맹 친화적 인 팔레트를 사용하십시오. http://www.vischeck.com/vischeck/ , http://jfly.iam.u-tokyo.ac.jp/color/#pallet을 참조 하십시오 . code.google.com의 마지막 참조에서 팔레트의 간단한 파이썬 구현이 있습니다 .python-cudtools를 찾으십시오.

— 안드레이 판예 코프
소스

또한 누군가 그레이 스케일 프린터로 인쇄해야 할 수도 있습니다. 이전 에이 작업을 수행했습니다. 할당에 ggplot2 기본 색상 (화면에서 멋지게 보임)을 사용하여 흑백으로 인쇄했으며 색상의 절반을 다른 색상과 구별 할 수 없었습니다! * blush *

— naught101

4

이것들은 훌륭한 제안입니다. 우리는 http://biostat.mc.vanderbilt.edu/StatGraphCourse 에서 많은 자료를 모았습니다 . 제약 산업, 학계 및 FDA의 통계 그룹도 임상 실험 및 관련 연구에 매우 유용한 자료를 만들고 있습니다. 한 달 안에 많은 새로운 자료가 공개 될 것이지만 이미 많이 있습니다-http: //www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph

내가 가장 좋아하는 그래픽 북은 William Cleveland의 Elements of Graphing Data 입니다.

소프트웨어 측면에서 R의 ggplot2와 격자 패키지를이기는 것은 어렵다고 생각합니다. Stata는 또한 뛰어난 그래픽을 지원합니다.

— 프랭크 하렐
소스

3

또한 플롯을 게시하지 않으려는 위치에 따라 다릅니다. 저널에 대한 음모를 만들기 전에 저자 가이드를 참조하면 많은 문제를 해결할 수 있습니다.

또한 플롯을 작성하는 데 사용한 코드를 수정하거나 저장하기 쉬운 형식으로 플롯을 저장하십시오. 수정해야 할 수도 있습니다.

— 마티 파스텔
소스

3

다이너마이트 플롯을 사용하지 마십시오 : http://pablomarin-garcia.blogspot.com/2010/02/why-dynamite-plots-are-bad.html , 바이올린 플롯 또는 이와 유사한 (박스 플롯 가족) 사용

— 파블로 마린 - 가르시아
소스

2

다른 답변은 너무 설득력이 없어서 더 일반적인 답변을 드리겠습니다. 나는이 질문으로 잠시 어려움을 겪었습니다. 나는이 과정을 제공합니다 :

당신의 메시지를 알고
청중을 아십시오
당신의 제약을 알고
제약 조건이 주어지면 청중에게 메시지를 맞 춥니 다.

나는 "간단하게 유지하라"와 같은 담요 주장에 회의적이다-그것이 무엇을 의미 하는가? 글쎄, 그것은 청중에 달려 있습니다. 일부 관객은 Tufte 스타일을 먹습니다. 그러나 일부 관객들은 때때로 작은 차트 쓰레기를 좋아합니다. 어떤 사람들은 산점도에 의해 지루합니다. 어떤 사람들은 화려한 배경을 좋아합니다. "미적"순도를 훼손하더라도 조금 참여하는 것이 잘못입니까? 결정하는 것은 당신에게 달려 있습니다.

청중의 반응은 중요한 피드백이지만 유일한 것은 아닙니다. 당신은 그들의 이해를 측정하는 방법을 발견하면 이전 과 이후를 프레젠테이션을, 당신은 당신이 만든 미치는 영향을 이해하기 시작합니다.

"올바른"답변은 다음과 같은 종류의 질문에 달려 있습니다.

어떤 미디어를 사용 하시겠습니까?
정적 또는 대화식 플롯을 작성 중입니까?
미리 정의 된 이야기 (박람회)를 말하거나 실험 (탐사)을 장려하고 있습니까?
청중이 어느 정도 자신의 결론을 도출하기를 원하십니까?
청중이 당신의 이야기를 따라 가고 확신하기를 원하는 정도까지?
청중이 조사 결과에 어느 정도 도전하기를 원하십니까?

요약하면 메시지, 대상 및 제약 조건을 고려하여 자료를 디자인 하십시오.

— 데이비드 제이
소스

"참여"또는 산만? 색상은 괜찮을 수 있지만 궁극적으로 데이터에 관한 것이므로 미학은 다른 방식이 아니라 데이터를 제공해야합니다.

— naught101

2

Tufte가 언급 한 다른 답변에없는 것은 기억하는 것 중 하나는 매핑 입니다. 즉, 그래프의 위치, 방향, 크기 등을 현실로 나타냅니다. . 그래프에서 나타나는 것은 실제 세계에서 일어나야합니다. 큰 것은 커야합니다 (영역은 면적과 볼륨을 나타내야한다는 것을 명심하십시오. 영역별로 스칼라 값을 나타내려고하지 마십시오. 매우 모호합니다!). 색상, 모양 등이 관련이있는 경우에도 적용됩니다.

흥미로운 예는 여기 "스커트 시리즈"그래프입니다 : http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . 기술적으로는 정확하고 "더 큰"치마 길이는 그래프에서 더 높은 위치를 차지하지만 치마 길이는 위에서 부터 시작하여 내려 갑니다 (사람이나 나무와 달리 높이를 측정하는 경우). 바닥). 따라서 치마 길이가 길어지면 실제로 더 낮은 값을 나타냅니다 .

skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))

여기에 이미지 설명을 입력하십시오

항상 그렇듯이 어려움이 있습니다. 예를 들어, 우리는 일반적으로 앞으로 나아갈 시간을 고려하고, 적어도 서쪽에서는 왼쪽에서 오른쪽으로 읽으므로 시계열 그래프는 일반적으로 시간이 증가함에 따라 왼쪽에서 오른쪽으로 흐릅니다. 따라서 시간이 지남에 따라 측면으로 가장 잘 표현 된 것 (예 : 동서 측정)을 나타내려면 어떻게됩니까? 이 경우 타협하고 시간을 위 또는 아래로 이동하는 시간을 묘사하거나 (문화적 인식에 따라 다시 결정되는 시간) 그래프에서 측면 변수를 위 / 아래로 매핑하도록 선택해야합니다.

— Naught101
소스

1

시간 / 공간에 대한 타협의 예는 책 만들기,지도 만들기 (중요한 논의 및 여기에 제시된 예) 에 있습니다 .

— Andy W

좋은 (끔찍한) 예! 지도는 2 차원 페이지에서 2 차원 이상의 시간을 나타내는 것 (예 : 대륙의 표류)과 같은 더욱 어려운 또 다른 절충을 가져옵니다. 꽤 어렵다. 그러나 나는 그것이 애니메이션을위한 것이라고 생각한다 :)

— naught101

당신이 말하는 예는 종종 발생하는 두 가지 추가 요점에 대한 언급을 허용합니다. 1. 시간 축에서 "TIme"과 같은 제목 또는 레이블은 일반적으로 중복됩니다. 2. "스커트 시리즈"와 같은 제목 또는 라벨은 적절한 경우 측정 단위를 포함하여 간결하지만 유익한 설명으로 항상 향상 될 수 있습니다.

— Nick Cox

1

플롯이 논의되는 방식에 따라 다릅니다.

예를 들어, 다른 위치에서 온 발신자와 함께 할 그룹 회의에 대한 음모를 보내려면 Excel과 달리 Powerpoint에 모으기를 선호하므로 뒤집기가 더 쉽습니다.

일대일 기술 통화의 경우 클라이언트가 플롯을 옆으로 이동하고 원시 데이터를 볼 수 있도록 Excel에 무언가를 넣을 것입니다. 또는 측면 회귀 계수를 따라 p- 값을 셀에 입력 할 수 있습니다 (예 :

명심하십시오 : 음모는 특히 슬라이드 쇼나 그룹으로 이메일을 보낼 때 저렴합니다. 차라리 동일한 그래프에 별개의 동질 집단 (예 : "남성과 여성")을 배치하려고하는 5 개의 플롯보다 뒤집을 수있는 10 개의 명확한 플롯을 만들고 싶습니다.

— 발티 마크
소스

1

플롯의 선택은 데이터 분석에 사용되는 통계 테스트 유형을 반영해야한다고 덧붙입니다. 다시 말해, 분석에 사용 된 데이터의 모든 특성을 시각적으로 보여 주어야합니다. 따라서 t- 검정을 사용했지만 Mann-Whitney 검정을 사용한 경우 상자 그림을 사용하면 평균 및 표준 오류가 표시됩니다.

— 프레야 해리슨
소스