히트 맵은 "가장 효과적인 유형의 데이터 시각화 중 하나"입니까?


22

질문 : 열지도는 언제 (어떤 유형의 데이터 시각화 문제에 대해) 가장 효과적입니까? (특히, 다른 모든 가능한 시각화 기술보다 더 효과적입니까?)

히트 맵은 언제 가장 효과적입니까?

히트 맵이 데이터를 시각화하는 효과적인 방법인지 여부와 비효율적 인시기를 결정하는 데 사용할 수있는 일반적인 패턴이나 경험 법칙이 있습니까?

(주로 나는 2 개의 범주 형 변수와 1 개의 연속 변수에 대한 히트 맵을 염두에두고 있지만 다른 유형의 히트 맵에 대한 의견에 관심이 있습니다.)

컨텍스트 : 데이터 시각화에 대한 온라인 과정을 진행 중이며 현재 효과가없고 과도하게 사용 된 플롯 유형에 대해 논의하고 있습니다. 그들은 이미 다이너마이트 도표와 파이 차트를 언급했으며, 왜 효과가없고 왜 더 나은 대안이 있는지에 대한 이유가 명확하고 설득력이있었습니다. 또한 다이너마이트 도표 및 파이 차트에 대한 주어진 의견을 뒷받침하는 다른 출처를 쉽게 찾을 수있었습니다.

그러나이 과정은 또한 "열지도는 가장 효과적인 데이터 시각화 유형 중 하나"라고 말했다. 그 이유는 다음과 같습니다. 그러나 Google 에서이 견해를 뒷받침하는 다른 장소를 찾으려고했을 때 원형 차트 및 다이너마이트 플롯의 효과에 대한 의견을 찾는 것과는 달리 많은 어려움이있었습니다. 그래서 나는 코스에서 주어진 열지도의 특성화가 어느 정도 유효한지, 그리고 주어진 맥락에서 그것들에 대한 요소가 가장 중요하지 않고 가장 중요한지 알고 싶습니다.

주어진 이유는 다음과 같습니다.

  1. 색상을 연속 배율로 매핑하는 것은 어렵습니다.

    이 규칙에는 몇 가지 예외가 있으므로 일반적으로 거래 차단기는 아니지만 열지도의 경우 색상에 대한 인식이 주변 색상에 따라 달라지기 때문에 문제가 특히 어렵습니다. 따라서 열지도는 작은 데이터 세트에서도 개별 결과를 보는 데 적합하지 않습니다. 어느 것이

  2. 주어진 색상에 해당하는 숫자 값을 충분한 정확도로 추론하는 것이 불가능하기 때문에 테이블 조회 방법을 사용하여 특정 질문에 대답하는 것은 일반적으로 불가능합니다.

  3. 경향을 이끌어내는 방식으로 데이터가 클러스터되지 않는 경우가 종종 있습니다.

    이러한 클러스터링이 없으면 일반적인 전반적인 패턴에 대해 어떤 것도 추론하기가 어렵거나 불가능합니다.

  4. 히트 맵은 종종 "와우 팩터"를 전달하거나 특히 다색 그라데이션을 사용할 때 멋지게 보이기 위해 사용되지만 일반적으로 데이터를 전달하는 더 좋은 방법이 있습니다.

연속적인 데이터를 공통 스케일로 플로팅하는 것이 항상 최선의 선택입니다. 시간 구성 요소가있는 경우 가장 명확한 선택은 선 그림입니다.


15
"열지도"에 대한 비판은 (4)의 마지막 줄에 나옵니다. 정확히 이러한 "더 나은 방법"은 무엇입니까? (더 나은 방법이 없다면 (1)-(3)은 거의 관련이 없습니다.) 문자 적으로 데이터 를 전달 하는 것이 목적 이라면 분명히 더 좋은 방법이 있습니다 : 숫자를 적어 두십시오. 그러나 시각화의 목적은 데이터를 전달하는 것이 거의 아니며 해석 을 지원 하거나 메시지를 보내는 것 입니다. 출처가 어떤 해석을 염두에두고 있으며 그러한 해석을 제시하는 더 좋은 방법은 무엇이라고 주장합니까?
whuber

4
@whuber 그 보충 책으로-히트 맵에 대한 아주 좋은 점은 대부분의 경우 각 타일에 직접 원시 데이터 (아마 적절한 반올림)를 표시하여 보충하기 쉽다는 것입니다. 스프레드 시트에서 셀의 배경색에 조건부 서식을 사용하더라도 매우 효과적이고 매우 일반적인 "열지도"라는 정렬 방식을 사용하면 개선 방법을보기가 어렵습니다.
Silverfish

2
내 의견은 비판 1에만 해당됩니다. 물리적으로 (파장) 비록 색상 (색조)이 심리적으로 정렬 된 스케일로 매핑되지 않는 것이 맞습니다. 그러나 밝기와 같은 중복 치수를 추가하면 더 쉽게 해석 할 수 있습니다. 빛보다 어두울 수 있지만 연한 파랑 및 진한 빨강과 같은 색상을 사용하십시오.
David Lane

2
상황에 따라 다릅니다. 다음 은 히트 맵에서 얻은 가치 있고 실행 가능한 정보 의 훌륭한 예 입니다. 더 편리하고 유용한 데이터 시각화 유형을 생각할 수 없습니다.
Jason C

5
색상은 불필요하고 (잘못 선택 되어도 R의 기본 이미지 컬러 맵 일뿐입니다), 여기 몇 년 전에 일했던 Minesweeper 재생에 대한 예가 있습니다. 히트 맵은 문제를 발견하고 잠시 생각하면 직관적으로 명확 해지는 문제에 대한 구조를 드러낸다는 점에서 즉시 밝게 나타났습니다.
추기경

답변:


15

이것 또는 저것에 대한 "최상의"줄거리는 없습니다. 데이터를 플로팅하는 방법은 전달하려는 메시지에 따라 다릅니다. 일반적으로 사용되는 플롯은 사용자가 읽을 수있는 장점이 있습니다. 그럼에도 불구하고 이것이 반드시 최선의 선택임을 의미하는 것은 아닙니다.

히트 맵과 관련하여 필자는 이에 대한 논거로 내 응답을 주문했습니다.

광고 1) 색상을 인코딩 채널로 신뢰하지 않는 경우 어두운 회색에서 밝은 회색의 "색"톤을 포함하는 스케일로 밝기를 대신 사용하십시오. 대부분의 경우 연속 변수를 비닝 (5 참조)하여 색상 수를 낮게 유지하고 사용자가 쉽게 디코딩 할 수 있습니다. 그러나 이것은 필수는 아닙니다. 연속 변수가 비닝되지 않은 이 예제를 살펴보십시오 .

Ad 2) 물론 정확한 값을 찾는 대안으로 사용해서는 안됩니다. 히트 맵은 주로 테이블을 대체하지 않고 패턴을 설명하는 데 사용해야합니다.

Ad 3 + 4) 이것이 히트 맵에만 어떤 관련이 있는지 모르겠습니다.

Ad 5) 히트 맵은 이상적이지만 반드시 개별 변수와 함께 사용되는 것은 아닙니다. 연속 변수의 경우 히트 맵은 적절한 비닝과 인코딩 채널의 밝기를 갖춘 일종의 2 차원 히스토그램 또는 막대 차트로 사용할 수 있습니다.


2
멋진 답변! "광고"의 의미를 모릅니다. 라틴어? 약어?
xan

1
감사! "광고"는 "온"또는 "우려"를 의미하며 라틴어에서 온 것 같습니다.
g3o2

나는 "ad"가 그런 식으로 사용 된 것을 본 적이 없다 (cc, @xan). 당신의 설명에서, 나는 pace를 사용할 수 있다고 생각 합니다.
gung-모니 티 복원

1
또한 밝기 기반 히트 맵을 감마 보정해야합니다.
user253751

3
@gung 사실은 아닙니다. IMO. 속도와는 달리 의미가 없습니다. 그것은 또한 덧붙여서, 부록을 의미합니다. 서구에서는 보편적이며 라틴어에서 왔으며 신학과 과학 및 정치 문헌에서 널리 사용되었습니다. 다른 것들. (메일) 대화 상자에서 두 당사자는이 대화 상자를 사용하여 각 포인트에 대한 인수를 참조합니다. 그래도 필기 언어가 다듬어지면서 인기가 떨어질 것 같습니다. 일반적인 대체 방법은 "Ad 1.1"대신 "1.1"을 사용하는 것입니다. 다소 혼란스럽고 다소 무례한 것 같습니다.
루안

5

열지도가 가장 효과적인 시각화 유형이라고 말할 수없는 사람이 있습니다. 차라리 그것이 요구 사항에 달려 있다고 말하고 싶습니다. 경우에 따라 히트 맵이 매우 유용합니다. 국가별로 (또는 도시별로) 범죄에 대한 보고서를 작성해야한다고 가정 해 봅시다. 여기에는 시간 의존성을 가질 수있는 거대한 데이터 세트가 있습니다.

마찬가지로 도시의 전력 소비에 대한 보고서를 준비해야한다고 가정 해 봅시다. 이 경우 히트 맵을 통해 쉽게 시각화 할 수 있습니다. 더 의미가 있고 성가시다.

요약하자면, 연속적인 데이터가 많고 신속하게 답변을 찾아 낼 수있는 보고서를 작성하려는 경우 히트 맵이 가장 좋습니다.


2
: 에너지 소비를 들어, 종종 히트 맵보다 더 플롯이 없다 argustech.be/wp-content/uploads/2012/04/heatmap.png 주 엔드 및 작업 시간이 뷰어 바로 점프. 기본 하중을 볼 수 있고 피크를 볼 수 있으며 피크가 발생하는 시점을 볼 수 있습니다. 일부 전기 장치가 항상 켜져 있거나 너무 일찍 또는 너무 늦게 시작하는 경우와 같이 몇 초 안에 이상한 패턴을 감지 할 수 있습니다.
Eric Duminil

4

원래 질문의 비판 1은 가장 큰 단점을 다루고 있습니다. 열지도를 읽는 사람이 전달되는 양적 정보를 해독하기가 어렵습니다. 기본 수량이 차트의 거리와 직접적으로 관련되는 xy-scatter plot 또는 dot plot을 고려하십시오. 해석이 매우 간단합니다.

반면 히트 맵에서 차트를 읽는 사람은 자신의 만족도에 따라 '빨간색'또는 '어둡게'10 %를 해석 할 자유가 있습니다. 무엇보다 사람들이 색깔과 그늘을 식별하는 능력이 다른 문제가 있습니다. 이것들은 진정한 단점이지만 보편적으로 치명적이지는 않습니다.

대조적으로, 세 번째 비판은 데이터가 2D 평면에 군집화되어 3 차원의 유사한 값이 특정 음영 또는 색상의 패치로 표시 될 때 열지도가 특히 유용한 경우를 부주의하게 식별하는 것으로 보입니다. 열지도는 어떤면에서는 비효율적이지만 다른 것들에게는 유용하며, 골프를 치는 사람들은 운전이나 퍼팅에 쓸모가 없지만 목차가 그렇지 않은 경우에도 종종 쐐기 등을 들고 다니는 것과 같은 방식으로 가방에 있어야합니다. 망치는 목재 절단에 좋지 않기 때문에 무시하십시오.

일반적으로 데이터 시각화는 반복적 인 활동으로 간주되어야합니다. 여러 종류의 시각화를 시도한 다음 데이터 내에서 가장 좋은 설정을 찾기 위해 실험하는 것을 포함하여 데이터의 중요한 기능을 가져 오는 많은 시각화를 시도하는 데 시간이 걸릴 것입니다 특별한 선택. 결과가 하나의 시각 화일 것이라고 가정해서는 안됩니다. 때로는 데이터의 여러 중요한 기능을 강조하기 위해 여러 가지 데이터 시각화가 필요할 수도 있습니다. 이와 관련하여, 특정 데이터 세트의 특정 특징에 대해, 히트 맵이 가장 효과적인 시간이있을 것이며, 설명 된 바와 같은 통신 클러스터는 그 시간 중 하나 일 수있다. 전반적으로 단일 시각화가 모든 것을 수행 할 수없는 경우가 자주 있으며 둘 이상이 필요할 수 있습니다.


3

다른 사람들이 언급했듯이 열지도가 항상 효과가 없다고 말하는 것은 부적절합니다. 실제로, 그들은 많은 경우에 매우 효과적입니다.

예를 들어 4D 데이터를 시각화하려는 경우 여러 플로팅 소프트웨어에서 처음 3 차원을 수행하는 것만으로도 간단합니다. 그러나 4D의 전체 개념은 개념화하기가 매우 어렵습니다. "4 차"방향 / 치수는 무엇입니까?

열지도는 좌표축에 처음 3 차원을 표시 할 수 있기 때문에 효과적 일 수 있습니다. 4 번째는 열지도를 플롯 된 평면 (또는 선에 쌓아 올림)을 통해 시각화 할 수 있습니다.

결론은 컨텍스트가 필요하다는 것입니다. 시각화에서 무엇을 찾고 있습니까? 또한, 동료 자기 교사로서,이 온라인 과정은 매우 사소하고 도움이되지 않는 경향이 있다고 말할 수 있습니다. 전체 주제에 대해 배우기보다는 특정 주제에 대한 정보 / 도움을 찾을 때만 사용하는 것이 좋습니다.

어쨌든 행운을 빈다.


3

본질적으로 히트 맵은 두 개의 연속 독립 변수 (또는 2 차원 벡터 공간에서 하나의 독립 변수)와 하나의 연속 종속 변수가있는 데이터를 표시합니다. 해당 유형의 데이터에서 히트 맵은 확실히 가장 효과적인 유형의 데이터 시각화 중 하나입니다 . 예, 문제가 있지만 불가피합니다. 실제로 2 차원 만 사용할 수 있으며 3 차원 공간 을 구조 보존 방식으로 매핑 할 수 없으므로 1 차원을 색상으로 매핑하는 것과 같은 해킹이 필요합니다. 등고선 그리기 등

아르 자형2엑스×와이|엑스||와이|범주 형 변수에 대해 유한합니다. 즉, 두 범주 형 변수의 데카르트 곱은 단일 범주 형 변수 로 간주 될 수 있습니다 . 그리고 그 빛에서, 당신은 열지도의 문제가없는 다른 플롯을 사용할 수 있습니다.

두 개의 범주 변수를 통해 열지도가 유용 나타나는 상황에서 자신을 찾을 경우, 이들은 아마 있다는 표시입니다 하지 정말 범주 변수가 아니라 양자화 연속 변수.


4
이 답변은 흥미롭지 만 범주 형 변수와 함께 히트 맵을 사용한다는 개념에 대해 짧은 생각을한다. 예를 들어, 범주 (또는 다른 관련 정렬 변수)에 따라 범주 수준의 순위를 지정한 다음 열 분포를 사용하여 관절 분포 또는 관절 범주 수준에 따라 다른 수량을 시각화 할 수 있습니다. 이것은 copulas (그리고 그것의 일반화 된 개념)에 묶여있을 수 있습니다 . 이러한 시각화는 잘 수행 될 때 데이터에서 실제 구조를 드러 낼 수 있으며, 그렇지 않으면 탐지하기가 매우 어려울 수 있습니다. (...)
추기경

(...) 그리고 그러한 접근은 범주 수준을 유클리드 공간에 포함시키는 (직접적인) 개념과 무관합니다.
추기경

유전자 발현 / 마이크로 어레이 데이터에 히트 맵을 사용하는 방법에 대한 의견이 있는지 궁금합니다. 이것은 범주 형 변수가 실제로는 불가능한 2 개의 범주 형 및 하나의 연속 변수에 대해 히트 맵을 사용하는 경우처럼 보입니다. 양자화 된 연속 변수로 해석됩니다. 또는 일반적으로 범주 형 변수의 상관 행렬에 대한 히트 맵을 추측합니다.
Chill2Macht

3

히트 맵은 시계열 관점에서 여러 변수에 대한 간단한보기를 제공하는 데 탁월합니다. 데이터는 시간에 따른 절대적인 변화이거나 Z 점수 또는 다른 측정 간격 또는 하위 그룹의 상대적인 변화를 갖는 변수를 검사하는 다른 수단을 사용하여 표준화 될 수 있습니다. 그것은 시각적으로 눈에 띄는 관점을 제공하여 상관 관계를 발견하거나 역전시킬 수 있으며 다수의 그래프를 대체합니다. 또한 가능한 차원 축소 (즉, 팩토링 또는 PCA)를 평가하기 위해 전처리에 사용될 수 있습니다.

이 접근 방식을 사용하여 상관 관계를 파악할 때 잘못된 매개 변수 및 기타 요인이 숨겨져 전달 될 수 있습니다. 선 그래프에서도 똑같은 숨겨진 측면이 발생하지만 변수가 많을 때 내 경험은 히트 맵이 사용자가 개입하는 측면이나 다른 숨겨진 요소를 고려하지 않을 정도로 많은 정보를 제공한다는 것입니다.

20 년 동안 데이터를 생산하는 분야에서 진보적 경제학자 관점의 데이터 과학자는 이러한 데이터로 일반 대중을 교육하는 일을 맡았습니다.


1

히트 맵은 산점도에서 볼 수있는 데이터 포인트가 너무 많은 경우 산점도보다 유리합니다. 이는 반투명 데이터 포인트를 사용하여 산점도에서 완화 할 수 있지만 특정 임계 값을 초과하면 데이터를 요약하는 것이 더 나아집니다.

에서 이 블로그에 게시 주어진다 해석하기 어려운되는 산점도의 강력한 예를.

산점도는 특정 임계 값까지의 밀도 만 시각적으로 나타낼 수 있습니다. "모든 지점의 임계 값"...

점이 아닌 플롯 밀도

해결책은 점 자체가 아닌 비닝 점 밀도를 플로팅하는 것입니다. 우리는 이미이 방법을 히스토그램으로 한 차원에서 알고 있습니다.

두 가지 차원에서 여러 가지 방법이 있습니다. 빈 형상은 정사각형 또는 육각형과 같은 평면을 균일하게 타일링하는 임의의 방법으로부터 취해질 수있다. 각 타일에 대해 타일 내부의 데이터 포인트 수가 계산됩니다. 타일은 포인트 수에 따라 색상이 할당됩니다.

2d bin 카운트의 히트 맵에 대한 ggplot2 문서 의 비슷한 문장 :

이것은 geom_point()과도 플로팅 이있는 경우에 유용한 대안 입니다.

의 문서에서 geom_point():

오버 플로팅

산점도에서 발생할 수있는 가장 큰 문제는 오버 플로팅입니다. 몇 점 이상이있을 때마다 점이 서로 플롯 될 수 있습니다. 이것은 플롯의 시각적 모양을 심하게 왜곡시킬 수 있습니다. 이 문제에 대한 해결책은 없지만 도움이 될만한 몇 가지 기술이 있습니다. 당신은 부가적인 정보를 추가 할 수 있습니다 geom_smooth(), geom_quantile()또는 geom_density_2d(). 고유 한 x 값이 거의없는 경우 geom_boxplot()에도 유용 할 수 있습니다.

다른 방법으로는 사용하여 각 위치에있는 점의 수를 요약하고 어떤 방법으로 그것을 표시 할 수 있습니다 geom_count(), geom_hex()또는 geom_density2d().

다른 기술은 점을 투명하게 (예 :) geom_point(alpha = 0.05)또는 매우 작게 (예 :) 만드는 것 geom_point(shape = ".")입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.