세 그룹에 걸쳐 많은 비율의 차이를 가장 잘 시각화하는 방법은 무엇입니까?


18

나는 세 개의 다른 뉴스 간행물이 어떻게 다른 주제를 다루는지를 시각적으로 비교하려고합니다 (LDA 주제 모델을 통해 결정). 나는 그렇게하는 두 가지 관련 방법을 가지고 있지만 이것이 매우 직관적이지 않다는 동료로부터 많은 피드백을 받았습니다. 나는 누군가를 시각화하기위한 더 좋은 아이디어가 있기를 바랍니다.

첫 번째 그래프에서는 다음과 같이 각 발행물의 각 주제 비율을 보여줍니다.

모든 주제와 출판물에 대한 비율

이것은 내가 이야기 한 거의 모든 사람에게 매우 간단하고 직관적입니다. 그러나 간행물의 차이점을 이해하기는 어렵습니다. 어떤 신문이 어떤 주제를 더 다루고 있습니까?

이를 위해, 나는 가장 높은 출판물로 채색 된 주제의 비율이 가장 높은 출판물과 두 번째로 높은 출판물 간의 차이를 그래프로 표시했습니다. 이처럼 :

첫 번째 주제와 두 번째로 높은 주제의 차이점

예를 들어, 축구에 대한 막대는 실제로 al-Ahram English와 Daily News Egypt (축구 범위에서 2 위) 사이의 거리이며 Al-Ahram이 1 위이기 때문에 빨간색으로 표시됩니다. 마찬가지로, Egypt Independent의 비율이 가장 높고 막대 크기가 Egypt Independent와 Daily News Egypt 간의 거리이므로 (2 번) 시험은 녹색입니다.

두 단락에서 모두 설명한다는 사실은 그래프가 자급 자족 테스트에 실패했다는 확실한 신호입니다. 보고있는 것만으로 실제로 무슨 일이 일어나고 있는지 말하기는 어렵습니다.

보다 직관적 인 방법으로 각 주제에 대한 주요 발행물을 시각적으로 강조 표시하는 방법에 대한 일반적인 제안이 있습니까?

편집 : 데이터와 재생 다음의 dputR의 출력 뿐만 아니라 CSV 파일 .

편집 2 : 예비 점 플롯 버전이 있습니다. 점의 지름은 말뭉치의 주제 비율에 비례합니다 (주제가 원래 정렬 된 방식). 여전히 조금 더 조정해야하지만 이전에했던 것보다 훨씬 직관적입니다. 모두 감사합니다!

도트 플롯


1
방금 R과 CSV에 대한 일부 데이터를 추가했습니다. 나는 비록 색맹 문제를 알고 있지만 좋은 색상을 선택하지 않았으므로 (따라서 Christmasy red / green) :)
Andrew

1
"비례"에 대한 언급은 여기에 약간의 청어가 있습니다. 데이터는 실제로 비례하지 않으며 더 중요한 것은 지금까지의 데이터에 비례하는 그래픽 솔루션은 없습니다. 솔루션이 광범위한 데이터와 관련이 있지만 오해하지 않기 때문에 이것은 좋습니다.
Nick Cox

(+1) 다운로드 가능한 데이터 세트 및 빠른 후속 조치를 포함한 멋진 질문입니다!
chl

앤드류, 당신의 최근 편집에 관해서는 세로 격자 선이 더 좋을 것이라고 생각합니다. 그것들은 체커 패턴을 생성하지만 그래프에서 정확한 값을 읽는 것에 신경 쓰지 않는다고 가정하면 많은 가치를 추가하지 않습니다.
xan

없이 수직 라인?
Andrew

답변:


18

데이터에 액세스 할 수있게하고 흥미로운 데이터 세트 및 그래픽 문제에 대해 감사합니다.

내 주요 제안은 (클리블랜드) 도트 차트입니다.

여기에 이미지 설명을 입력하십시오

강조하고 싶은 가장 중요한 세부 사항 :

  1. 여기서 중첩은 비교를 허용하고 용이하게합니다.

  2. 디스플레이에서 주제의 순서는 매우 임의적으로 나타납니다. 자연스러운 순서가 없으면 (예 : 시간, 공간, 순서가 지정된 변수) 프레임 워크를 제공하기 위해 항상 변수 중 하나를 정렬합니다. 어느 것이 어느 것이 흥미 롭거나 중요한지, 연구원의 결정에 따라 문제가 될 수 있습니다. 다른 가능성은 논문들 사이의 차이를 어느 정도 측정하여 주문할 수 있기 때문에 비슷한 범위의 주제는 한쪽 끝에 있고 다른 범위는 다른 범위에있는 주제입니다.

  3. 열린 마커 또는 점 기호를 사용하면 닫히거나 단단한 마커 또는 기호보다 겹치거나 동일성을 더 잘 해결할 수 있습니다. 최악의 경우 서로 가려 지거나 가려집니다. (여기서 잘 작동하는 대안은 세 신문의 A, D 및 I와 같은 문자입니다.)

내 디자인을 개선 할 수있는 범위는 분명히 많습니다. 예를 들어 글자가 너무 크거나 무겁습니까? 반면에 제목은 쉽게 읽을 수 있어야합니다. 그렇지 않으면 그래프가 실패합니다.

더 작고 까다로운 포인트 :

ㅏ. 그래프에서 빨간색과 녹색은 피해야 할 색상 조합입니다. 다른 마커를 사용하는 경우 색상 선택이 덜 중요합니다.

비. 그래프의 가로 눈금이 산만 해집니다. 대조적으로, 내 그리드 선이 필요하지만 얇고 가벼운 선을 사용하여 눈에 잘 띄지 않게하려고합니다.

× 0.1 % 또는 2 %이므로 용지의 98 %가 다른 것입니까? 제공된 .csv에서 비율을 직접 사용했습니다.

클리블랜드 도트 차트

Cleveland, WS 1984. 데이터 표시를위한 그래픽 방법 : 전체 규모 중단, 도트 차트 및 다중 기반 로깅. 미국 통계 학자 38 : 270-80.

Cleveland, WS 1985. 그래프 데이터 요소. 몬트레이, 캘리포니아 : 워즈워스.

Cleveland, WS 1994. 그래프 데이터의 요소. Summit, NJ : Hobart Press.

하나의 선구자 (상당히 다른 작업으로 통계적으로 더 유명합니다!)는

Pearson, ES 1956. 통계 지오메트리의 일부 측면 : 수학적 통계의 이론과 적용을 이해하기위한 시각적 표현의 사용. 왕립 통계 학회지 A 119 : 125-146.

관심있는 사람들을 위해 코드로 .csv를 읽은 후 Stata에서 그래프를 준비했습니다.

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color) 

감사합니다! 불행히도 그 값은 큰 문서 모음에서 표준화 된 수단이기 때문에 아무 것도 합치 지 않습니다. 즉, 각 출판물의 모든 문서는 LDA가 발견 한 20 가지 주제의 조합으로 구성되어 있습니다 . 작은 숫자)
Andrew

또한 주제는 코퍼스의 비율에 따라 정렬됩니다. 이집트 거버넌스는 가장 일반적으로 나타나는 주제이며, 기타는 가장 드문 주제입니다. 그러나이 순서를 사용하면 점 / 기호를 시각적으로 따라 가기가 약간 더 어려워집니다.
Andrew

대단해! 감사! 귀하의 제안을 반영하고 말뭉치 비율을 추가하기 위해 원본 게시물을 업데이트했습니다.
Andrew

(+6) 좋은 답변입니다! 그리고 참조와 재현 가능한 코드를 갖는 것이 항상 좋습니다.
chl

@chl 감사의 말과 추가 평판에 감사드립니다.
Nick Cox

14

Nick Cox의 도트 플롯이 전체 그림에 가장 적합 할 것입니다. 첫 번째 관계와 두 번째 관계를 실제로 강조하려는 경우 두 번째 막대의 길이에 따라 차이 막대를 상쇄하도록 차트를 수정했습니다.

여기에 이미지 설명을 입력하십시오

다른 큰 그림을 보려면 기울기 차트 또는 평행 좌표 플롯과 같은 것을 시도해보십시오. 여기에 선이 너무 혼잡 할 수 있지만 주제의 하위 세트를 강조 표시하려는 경우 효과가있을 수 있습니다.

여기에 이미지 설명을 입력하십시오

또한, 당신은 이와 같은 매우 구체적인 데이터 질문에 맞춰 helpmeviz.com 을 시도 할 수 있습니다 .


흥미 롭습니다! 미세한 점 : 축 제목 또는 레이블 "비율"이 % 단위와 일치하지 않습니다.
Nick Cox

오, 정말 재미 있어요. 도트 차트를 보완 할 수 있는지 확인하기 위해 이것을 가지고 놀 것입니다.
Andrew

2

나의 첫 번째 instict는 Mosaic plot 을 제안하는 것이 었습니다 ; 각 하위 범주를 사각형으로 그래프로 표시합니다. 한 차원은 기본 범주의 총 ​​개수를 나타내고 다른 차원은 하위 범주의 비례 점유율을 나타냅니다. 거기 를 그릴 수있는 R 패키지 , 그러나 또한 상당히 낮은 수준의 그래프 도구를 할 간단합니다.

그러나 비율을 비교하려는 차원에 2 개 또는 3 개의 범주 만있는 경우 모자이크 그림 (예 : 백분율 기반 누적 막대 그래프)이 가장 효과적입니다. 따라서 세 개의 신문에있는 기사의 비율에서 주제 간의 차이 를 비교 하고 싶지만 의도 한 용도로는 그렇게 많이 사용하지 않고 세 가지 신문의 차이를 각 주제에 대한 비율로 비교하려는 경우에는 잘 작동합니다 . 미묘하지만 중요한 차이!

강조하고 싶은 점에서 가장 효과적인 그래프는 가장 단순한 그룹화 막대 그래프 중 하나라고 생각합니다. 도트 차트보다 막대 그래프를 이해하는 사람이 더 많습니다. 한눈에 다른 크기의 수량을 비교하고 있으며 비교하려는 값이 나란히 있음을 알 수 있습니다.

그러나 비율의 차이를 실제로 강조하려는 경우 사용자 지정 그룹화 된 막대 그래프를 만들어 각 그룹을 배치하도록 수정하여 범주 당 중앙값이 0 값 대신 축과 정렬되도록 할 수 있습니다.

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median 
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage 
   per category, all papers
   (large bars)

각 그룹의 막대는 크기를 쉽게 비교할 수 있도록 정렬되어 있으며 각 그룹의 기준선은 이제 해당 그룹의 중앙값에 따라 축의 왼쪽 에 위치 하지만 막대는 축의 오른쪽 으로 는 동일합니다 두 번째 막대 그래프에서 상위 두 카테고리의 차이점을 보여줍니다.

위와 같이 표준 그룹 막대 그래프를 사용하든 오프셋 조정 그래프를 사용하든 관계없이 모자이크 플롯에서 아이디어를 가져 와서 각 막대의 너비를 해당 신문의 총 기사 수에 비례하도록 만들 수 있습니다. 막대는 해당 범주의 해당 신문 기사 수에 비례합니다.

테스트 통계는 개별 값이 아니라 각 비교 의 속성이므로 모든 데이터 포인트를 중요도에 따라 스케일링하는 것이 유용하지 않다고 생각합니다. 대신 각 그룹 옆에 의미를 나타내는 아이콘이 있습니다. 학술 출판의 경우 표준 */ **/ ***은 친숙 함의 이점이 있지만 통계의 전체 연속성을 보여주고 싶다면 창의력을 발휘할 수 있습니다.


여기서 주요 아이디어는 막대를 세로로 그룹화하는 것입니다. 널리 사용되는 디자인이지만 포스터 원본의 세로 막대가 아니라 세로 막대가 60 개라는 의미입니다. 막대 너비를 명확하게 조정할 수 있지만이 경우 특히 그룹 사이에 공간을 추가하려는 경우 더 잘 수행 할 공간이 필요하다고 생각합니다.
Nick Cox

@NickCox 가로 방향의 그림이 전체 레이아웃에 적합하면 전체 그래프를 90도 회전 할 수 있지만 더 컴팩트 한 원본 차트와 비교할 때 단점입니다.
AmeliaBR

당신은 할 수 있지만 60 막대는 왼쪽에서 오른쪽으로도 힘들고 "무슬림 형제와 정치"와 같은 20 개의 레이블을 읽을 수 있어야합니다 ...
Nick Cox

그룹의 막대를 나란히 놓지 않고 서로 위에 놓아서 작동시킬 수 있습니다. 모형을 보지 않고 말하기가 어렵습니다 (그리고 ASCII 아트는 모양과 느낌을 전달하는 데별로 좋지 않습니다). 익숙하지 않은 구조이기 때문에 직관적이지 않으며 두 막대의 높이가 거의 같으면 혼동 될 수 있습니다. 그러나 대안이 1 픽셀 너비의 막대
라면

그래서, 당신은 도트 차트에 대한 나의 대답에서 제안에 접근하고 있습니다.
Nick Cox

1

버블 차트를 사용해 보셨습니까? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

개별 주제는 원이 될 수 있고 각 원은 각 뉴스 매체가 주제를 다루는 백분율의 원형 차트 일 수 있습니다. 원의 크기는 주제의 상대적 범위를 나타낼 수 있습니다. 예를 들어 배양 물보다 기름에 대해 더 많은 총 기사가 쓰여지면 기름 원의 직경이 더 큽니다.


[엑스,와이] 좌표는 무엇입니까?
Nick Stauner

1
@ NickStauner 처음에 대답했을 때 데이터 세트로 편집 된 질문을 보지 못했습니다. 좌표는 많은 출판물을 의미하지는 않습니다. 원은 주제 또는 지름 크기별로 묶을 수 있습니다. 숫자가 극도로 작기 때문에 왜 백분율이 처음에 사용되었는지 모르겠습니다.
rocinante
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.