데이터 시각화를 만들고 있습니다. 각 데이텀은 사각형으로 표시됩니다. 기본 데이터를 직관적으로 읽기 쉽게하려면 각 사각형의 길이 또는 각 사각형의 면적이 나타내는 데이텀에 비례해야합니까?
데이터 시각화를 만들고 있습니다. 각 데이텀은 사각형으로 표시됩니다. 기본 데이터를 직관적으로 읽기 쉽게하려면 각 사각형의 길이 또는 각 사각형의 면적이 나타내는 데이텀에 비례해야합니까?
답변:
제작자가 확실하지 않은 경우 독자는 그것이 무엇인지 어떻게 알 수 있습니까?
짧은 대답 : 값은 페이지의 색상 양에 1 : 1로 연결 되어야합니다 . 따라서 귀하의 예에서는 면적이어야합니다. 그러나 그 이상이 있습니다. 독자가 잘못 읽게 할 수있는 오도 신호를 피해야하며 길이가 아닌 영역 (예 : 막대 차트)을 사용하는 이유를 알아야합니다. 실제 장단점이 있기 때문입니다.
첫째, 실제로 변수가 한 변의 길이에만 연결되어있을 때 모양이 변하는 길이와 너비 (예 : 면적)를 가지지 마십시오 . X가 두 배 Y이지만 페이지에서 Y의 색이 4 배나 많다면 독자를 오도하는 것입니다. 이러한 종류의 왜곡은 때때로 " 거짓 요인 " 으로 불리며 , 종종 차이를 오도하고 과장하기위한 의도적 인 시도로 간주됩니다.
면적을 측정으로 사용하는 것이 좋습니다.
왜 area를 사용하는지 알고 있습니다 . 길이와 같은 선형 치수 대신 면적을 사용하면 다음을 수행 할 수 있습니다.
정사각형이 아닌 영역에 원을 사용하여 중심을 정렬하십시오 .
예를 들어, 위에서 "5"로 표시된 정사각형이 "10"으로 표시된 정사각형 높이의 3/4 인 것으로보기 어렵 기 때문에 오해의 소지가 있습니다.
서클은 이러한 종류의 비교를 초대하지 않습니다. 즉, 직설적 인 수준의 "그 얼룩은 다음 얼룩보다 훨씬 큽니다."
사용자 테스트에서 소규모 연구에 이르기까지 다양한 증거가 있습니다 (나중에 몇 가지 예를 찾으려고 시도 할 것임). 이런 종류의 직관적 인 영역 기반 비교는 더 매력적일 수 있고 덜 참여하는 대상에 대한 진입 장벽을 낮출 수 있으며 냉담한 수치보다는 주제에 독자의 초점을 유지하도록 도와줍니다. 그러나 이것은보다 수치 적으로 분석하는 데 방해가됩니다.
미학적 이유로 1 차원 (길이 또는 거리)과 2 차원 (영역) 중에서 선택하지 마십시오. 청중과 메시지에 따라 선택하십시오.
의사 소통에 더 적합한 것은 : "훨씬 더 큰"수준에서의 즉각적인 직감 수준 비교, 또는 "다른 것의 약 80 %"수준에서의 수치 적 비교가 더 고려됩니까?
아니면 지역을 사용해야하는 실질적인 이유가 있습니까?
그런 다음 실용적인 이유로 선택하면 미학을 적용하십시오.
나는 지역을 말할 것입니다. 광학적으로, 측면이 2 배 긴 정사각형은 면적이 4 배 큰 영역을 나타냅니다. 캐주얼 옵저버는 전설을 읽지 않아도 해당 지역과 관련이 있습니다.
xkcd 의 Randall Munroe 의이 전설적인 그래프가 좋은 예입니다 .
( 거대하고 읽기 쉬운 버전 )
우리는 길이만큼 지역의 차이를 판단하는 데 능숙하지 않습니다. 우리는 길이를 대리자로 사용하므로 영역의 차이를 과소 평가하는 경향이 있습니다.
이러한 이유로 뇌의 반경이 1.4 배로 다르기 때문에 실제로 다른 영역의 2 배 영역을 가진 원은 너무 작아 보입니다 .
길이와 면적을 판단하는 방법에 더 가깝게 일치하도록 기호의 지각 적 스케일링을 제안하는 R의 비례 기호 매핑 과 같은이 현상을 조정하려는 흥미로운 시도가 있습니다.
여기이 논문의 그림 2가 있습니다.
개인적으로 나는 이것에 대한 경험이 없으며 정량적 판단이 필요한 경우 영역 사용을 피합니다.
흥미로운 접선은 부피 인식과 길이 사이의 관계입니다. 우리가 이것을 인식하는 방법의 차이는 훨씬 더 놀랍습니다. 이것은 별 크기 비교 비디오 에서 설명 할 수 있습니다 .
태양의 직경이 약 1,700 배인 가장 큰 별에 도달 할 때까지는 1,700 배보다 훨씬 크다는 인상을 받습니다.
면적과 길이의 차이를 인식하는 데있어서의 오류를보다 체계적으로 살펴 보려면 크라우드 소싱 그래픽 인식 : 기계 터크를 사용하여 시각화 디자인 평가 Jeffrey Heer와 Michael Bostock을 참조하십시오.
제 생각에는 영역 (D)가 아니라 양쪽 (E)입니다.
길이가 2 인 변을 사용하는 경우 면적은 값의 4 배가되며 그래프가 매우 겹칩니다. (이자형)
일반 막대 그래프 (A)가있는 경우 데이터는 선형이며 막대가있는 것은 심미적입니다. (비)
이 경우 막대의가 동일하므로 영역이 데이터를 다시 나타냅니다. 3D 막대를 가질 수 있지만 막대의 부피는 여전히 데이터를 나타내는 것입니다 (C).
Tufte는 이것을 광범위하게 다루었습니다. 보다:
그래픽 무결성의 몇 가지 원칙 :
- 그래프 자체의 표면에서 물리적으로 측정 된 숫자의 표현은 표시된 숫자의 양에 정비례해야합니다.
- 그래픽 왜곡과 모호함을 없애기 위해 명확하고 상세하며 철저한 레이블을 사용해야합니다. 그래프 자체의 데이터에 대한 설명을 작성하십시오. 데이터에서 중요한 이벤트에 레이블을 지정하십시오.
- 설계 변형이 아닌 데이터 변형을 표시합니다.
- 돈의 시계열 디스플레이에서 수축 및 표준화 된 통화 측정 단위는 거의 항상 명목 단위보다 낫습니다.
- 묘사 된 정보를 포함하는 (가변) 차원의 수는 데이터의 차원 수를 초과해서는 안됩니다. 그래픽은 문맥을 벗어난 데이터를 인용해서는 안됩니다.
귀하의 경우 데이터가 2D 또는 3D 이미지 또는 선으로 더 잘 표현되는지 스스로에게 문의해야합니다. 큐브, 정사각형 및 선이 동일하지 않습니다. 이것이 3D 막 대형 차트가 종종 오도되는 이유 중 하나입니다.