그래프의 y 축이 0에서 시작해야하는지 여부를 결정하는 방법은 무엇입니까?


45

"데이터에 거짓말을하는"한 가지 일반적인 방법은 y 축 스케일을 사용하여 변경이 실제보다 더 중요한 것처럼 보이게하는 것입니다.

과학 출판물이나 학생의 실험실 보고서를 검토 할 때 종종이 "데이터 시각화 죄"(저는 저자가 의도하지 않은 커밋을 믿지만 여전히 오해의 소지가있는 프레젠테이션)에 좌절합니다.

그러나 "항상 y 축을 0으로 시작"하는 것은 어려운 규칙이 아닙니다. 예를 들어 Edward Tufte 는 시계열에서 기준선이 반드시 0 일 필요는 없다고 지적 합니다.

일반적으로 시계열에서는 영점이 아닌 데이터를 표시하는 기준선을 사용하십시오. 데이터를 플롯 할 때 영점이 합리적으로 발생하면 괜찮습니다. 그러나 데이터 라인 자체에서 발생하는 일을 숨기는 대신 빈 공간을 많이 사용하지 마십시오. (이 시점에서 통계와 거짓말하는 법) 책은 잘못되었습니다.

예를 들어, 시계열에 0 점이없는 곳곳에서 주요 과학 연구 간행물을 살펴보십시오. 과학자들은 0이 아닌 데이터를 보여주기를 원합니다.

데이터의 맥락화에 대한 욕구는 좋은 것이지만, 빈 수직 공간에서 0에 이르는 컨텍스트는 아닙니다.이 숫자는 많은 데이터 세트에서도 발생하지 않습니다. 대신 문맥 상 더 많은 데이터를 가로로 표시하십시오!

내가 검토 한 논문에서 오도 된 프레젠테이션을 지적하고 싶지만 제로 -y- 축 순수 주의자가되고 싶지 않습니다.

y 축을 0으로 시작할 때와 이것이 불필요하거나 부적절한시기를 다루는 지침이 있습니까? (특히 학문적 맥락에서)


3
나는 0을 포함 (포함하지 않음)이 오도 될 수 있는지 여부는 이야기하는 이야기에 달려 있습니다.
gung-Monica Monica 복원

2
대화에서 "강하게 억제 된 0에 유의하십시오"라는 문구 또는 이와 유사한 문구를 사용하여 오해의 소지가있는 인물을 정직하게 만들 수 있습니다. 나는 인쇄물에 그다지 만족하지 않지만 조금이라도 그것을 사용할 수 있습니다.
dmckee

이 모든 것을 피하기 위해 가능할 때마다 상자 그림을 사용하고 있습니다. 평균과 오차 막대를 계산할 필요가 없으며 중요한 정보 (예 : 데이터 분포, 확산, 왜곡, 범위)가 모두 한 줄로 표시됩니다. 또한 원시 데이터를 보여줍니다.
Stefan

@Stefan Box 플롯은 실제로 도움이 될 수 있습니다. 그러나 일부 교과서조차도 분산을 설명하고 상자 그림을 표시하는 것은 이상합니다. 이를 위해, 오차 막대가 아닌 경우 수단은 확실히 관련이 있으며 정보를 제공해야합니다. 다양성에 따라 많은 상자 그림이 원시 데이터를 요약하는 데 매우 좋지 않습니다. 그러나 Quantile Box Plot과 같은 향상된 기능이 있습니다. 그러나 이러한 맥락에서, 평균 및 오류 막대를 표시해도 데이터 범위를 벗어난 경우 을 표시하지 않습니다 . y=0
Nick Cox

의견을 보내 주셔서 감사합니다! ANOVA가 완료된 수단과 오류 막대를 표시하는 것이 더 의미가 있음에 동의합니다 . 그러나 분석을 실행하기 전에 상자 그림이 더 유익한 것으로 나타 났으며 데이터가 어떻게 보이는지, 선택한 분산 분석이 적절한 지 여부에 대한 정보를 제공합니다. 예를 들어 파라 메트릭 테스트를 선택했지만 데이터가 필요한 가정을 충족하지 않는 경우 "데이터를 이용한 거짓말"이 이미 발생할 수 있습니다. 따라서 과학 연구의 독자로서 나는 항상 제시된 결과에 대해 내 생각을 구성하기 위해 상자 그림을보고 싶어한다.
Stefan

답변:


40
  • 이해하는 데 도움이되지 않는 방식으로 그래프에 공백을 사용하지 마십시오. 데이터를 표시하려면 공간이 필요합니다!

  • 통계적 판단뿐만 아니라 과학 (엔지니어링, 의료, 사회, 비즈니스 등) 판단을 사용하십시오. (고객 또는 고객이 아닌 경우, 해당 분야의 누군가와 대화하여 흥미 롭거나 중요한 것이 무엇인지, 바람직하게는 분석을 의뢰하는 사람들과상의하십시오.)

  • 0과의 비교가 문제의 중심이거나 관심이있는 경우 축 에 0을 표시하십시오 .y

이것들은 세 가지 간단한 규칙입니다. (때로는 그들 사이의 긴장을 배제하는 것은 없습니다.)

다음은 간단한 예이지만 세 가지 점이 모두 발생합니다. 섭씨 또는 화씨 또는 켈빈 환자의 체온을 측정하십시오. 어떤 의미에서 제로 온도 표시를 주장하는 것이 도움이되거나 논리적인가? 중요하거나 의학적으로나 생리적으로 중요한 정보도 그렇지 않으면 모호해질 것입니다.

다음은 프레젠테이션의 실제 이야기입니다. 한 연구원은 인도의 여러 주와 노조 영토의 성별 비율에 대한 데이터를 보여주었습니다. 그래픽은 모든 막대가 0에서 시작하는 막대 차트입니다. 상당한 변화에도 불구하고 모든 막대는 같은 길이에 가깝습니다. 맞습니다. 그러나 흥미로운 이야기는 차이점에도 불구하고 영역이 비슷하다는 것이 아니라 유사점에도 불구하고 영역이 다르다는 것입니다. 나는 남성과 여성 (1 명 또는 100 명의 여성 / 100 명의 남성) 사이의 패리티가 훨씬 더 자연스러운 기준 수준이라고 제안했다. (저는 국가 평균과 같은 전체적인 수준을 참고로 사용하기도합니다.)이 작은 이야기를들은 일부 통계적 사람들조차도 때때로 "아니오; 바는 항상 0에서 시작해야합니다"라고 대답했습니다. 나에게 그것은 그러한 경우에 관련없는 교리보다 낫지 않습니다.

막대 그래프를 언급하면 ​​사용 된 그래프의 종류도 중요하다는 점이 지적됩니다. 체온의 경우 축 범위 35 ~ 40 C가 편의를 위해 모든 데이터를 포함하여 선택되어 축이 35에서 "시작"된다고 가정합니다. 35에서 시작하는 막대는 모두 데이터. 그러나 여기서 문제는 잘못 선택된 축 범위가 아닌 그래프 요소의 부적절한 선택입니다.yy

일반적인 종류의 줄거리, 특히 일부 생물학 및 의료 과학에서 보이는 것처럼 0에서 시작하는 두꺼운 막대와 얇은 막대에 의한 불확실성을 나타내는 표준 오차 또는 표준 편차 기반 간격으로 평균 또는 기타 요약을 보여줍니다. 이러한 기폭 장치 또는 다이너마이트 플롯은 승인하지 않은 사람들이 불렀던 것처럼 0이 항상 표시되어야한다는 말 때문에 부분적으로 인기가있을 수 있습니다. 순 효과는 종종 관심이나 유용성이 부족한 0과의 비교를 강조하는 것입니다.

일부 사람들은 0을 표시하고 스케일 중단을 추가하여 스케일이 중단되었음을 표시하려고합니다. 패션은 변하고 기술은 변합니다. 수십 년 전, 연구원들이 그래프를 직접 그리거나 기술자에게 과제를 위임했을 때,이를 직접 수행하도록 요청하는 것이 더 쉬웠습니다. 이제 그래픽 프로그램은 종종 스케일 나누기를 지원하지 않으므로 손실이 없다고 생각합니다. 그래도 그래픽 영역의 중간 부분을 낭비 할 수있는 까다로운 추가 작업입니다.

아무도 축 에 대해 동일한 규칙을 고집하지 않습니다 . 왜 안돼? 지난 세기 정도의 기후 또는 경제 변동을 보이면 규모가 BC / CE 경계 또는 다른 원산지에서 시작해야한다는 것이 이상 할 것입니다.x

언급 된 세 가지 외에 자연스럽게 적용되는 규칙이 0입니다.

  • 당신이 무엇을 하든지, 매우 명확합니다. 축에 일관되고 유익한 레이블을 지정하십시오. 그런 다음주의 깊게 읽는 독자는 자신이 한 일을 볼 것임을 믿습니다.

따라서이 시점에서 나는 Edward Tufte에 강력하게 동의하고 Darrell Huff에 동의하지 않습니다.

2016 년 5 월 9 일 수정 :

모든 차트에 항상 0 기준선을 포함 시키려고하는 대신 논리적이고 의미있는 기준선을 대신 사용하십시오

카이로, A. 2016. 진실 된 예술 : 데이터, 차트 및 커뮤니케이션지도. 샌프란시스코, 캘리포니아 : New Riders, p.136.


7
그 외에도 제 생각에 사람들은 데이터가 막대로 표시 될 때 "0에서 시작"을 교리 적으로 고수하는 경향이 있다고 생각합니다. A의 클리블랜드 도트 플롯 어쨌든 종종 더 적합 시각화 - -이 제로에서 시작하는 그런 강력한 인수를 보인다, 사람들은 그들이 시작 위치에 대한 유연성을 기꺼이 보인다.
Silverfish

4
좋은 대답입니다. 부적절한 축 범위를 일관되게 사용하는 용지를 검토하는 맥락 에서이 질문을했습니다 (데이터의 중요하지 않은 변화를 강조합니다). 이 답변을 통해 내가 실제로 좌절 한 것은 데이터를 이해하고 해석 할 때 (통계 및 엔지니어링) 판단이 결여되어 있음을 깨달았습니다. 이것은 축 범위에 대해 불평하는 것보다 검토에서 언급해야 할 훨씬 더 건설적인 것입니다.
ff524

4
축을 0에서 시작하는 규칙은 비율 인 연속 변수에 대해서만 생각하는 것이 합리적이므로 0은 실제 의미를 갖습니다. 가중치 0은 가중치가 없습니다. 그러나 C 또는 F의 온도는 0에 임의의 값을 사용하므로 축을 시작하는 것에 대해 생각조차하지 않습니다.
Harvey Motulsky

2
0 C 에서 시작하는 막대 는 물의 어는점 위와 아래의 온도를 나타냅니다. 나는 그것이 기후학에서 행해지는 것을 보았고 그것은 물리적 의미를 가지고 있습니다. 당연히 나는 비율 척도 및 기타 임의의 경우 0이 자연 스럽다는보다 일반적인 점에 동의합니다.
닉 콕스

3
좋았지 만 "심판"포인트는 관객에 달려 있습니다 (청중은 항상 중요합니다!). 기술 청중은 축을 읽고 관련성을 이해합니다. 평신도 모집단의 특정 비율은 축 레이블을 무시하고 스케일에 대한 잠재적으로 잘못된 가정 하에서 그래프 모양으로부터 결론을 도출합니다. 그래프가 일반 청중을 대상으로하는 경우에는이를 판단에 반영해야합니다.
dmckee
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.