상자 그림에 대한 대안은 무엇입니까?


20

사용자가 선택한 다각형에 대한 인구 조사 데이터를 표시하고 다양한 매개 변수 (매개 변수 당 하나의 그래프)의 분포를 그래픽으로 표시하려는 웹 사이트를 만드는 중입니다.

데이터에는 일반적으로 다음과 같은 속성이 있습니다.

  1. 샘플 크기가 큰 경향이 있습니다 (예 : 약 10,000 개의 데이터 포인트)
  2. 값의 범위는 크게 요구되는 경향이 있습니다 (예 : 최소 모집단은 100보다 작을 수 있고 최대 값은 500,000과 같을 수 있음)
  3. q1은 일반적으로 최소값 (예 : 200)에 가까운 반면 q2 및 q3은 10,000 이내입니다.
  4. 정규 분포처럼 보이지 않습니다.

나는 통계학자가 아니므로 설명이 명확하지 않을 수 있습니다.

이 분포를 그래프로 보여 드리고자합니다. 그래프는 시민 (원하는 경우 평신도)이 볼 수 있습니다.

히스토그램을 사용하는 것이 가장 좋았지 만, 값을 크게 만드는 것이 불가능하기 때문에 쓰레기통을 만드는 것이 실제로 쉽지 않습니다.

내가 통계에 대해 아는 것 중에서도 박스 플롯은 종종 이런 종류의 데이터를 표시하는 데 사용되지만 평신도에게는 박스 플롯을 해독하는 것이 쉽지 않다고 생각합니다.

이 데이터를 이해하기 쉬운 방식으로 보여주는 옵션은 무엇입니까?


정확히 무엇을 표시하고 있습니까? 하나의 데이터 포인트가 어떤 종류의 데이터를 나타내는지는 분명하지 않습니다.
mpiktas

1
커널 밀도 플롯은 어떻습니까? statmethods.net/graphs/density.html
Roman Luštrik

@ mpiktas : 내 데이터는 마을의 인구 조사 데이터입니다. 내 웹 사이트에서 사용자가지도에서 지역을 선택한 다음 해당 지역의 모든 마을을 찾을 수 있습니다. 마을의 인구 조사 데이터는 해당 마을의 남성 인구, 여성 인구, 평균 가계 수입 등의 다양한 값으로 구성됩니다. 사용자가 선택한 지역에 속한 모든 마을에 대한 특정 값 (예 : 총 인구)에 대한 데이터 분포를 보여주고 싶습니다.
Devdatta Tengshe

답변:


13

상자 그림은 그렇게 복잡하지 않습니다. 결국 3 개의 사 분위수 와 범위를 정의하는 최소 및 최대 값 만 계산하면됩니다 . 수염을 뽑고 싶을 때 미묘함이 발생하며 다양한 방법이 제안되었습니다. 예를 들어, Tukey boxplot 값에서 제 1 사 분위 또는 제 3 사 분위수의 사 분위수가 1.5 배를 초과하면 특이 치로 간주되어 간단한 점으로 표시됩니다. Kristin Potter의 통계 정보 제공 방법 : 상자 그림을 참고하십시오 . R의 소프트웨어는 약간 다른 규칙을 구현하지만, 당신이 볼 (공부하려면 소스 코드를 사용할 수있는 boxplot()boxplot.stats()기능). 그러나 관심이 매우 치우친 분포에서 특이 치를 식별하는 경우에는 그다지 유용하지 않습니다 (그러나 비뚤어진 분포에 대한 조정 된 상자 그림, Hubert 및 Vandervieren, CSDA 2008 52 (12) 참조).

온라인 시각화와 관련 하여 대화 형 웹 디스플레이를위한 플러그인이없는 js 도구 상자 인 Protovis 를 살펴 보는 것이 좋습니다 . 예제 페이지는 매우 몇 줄, 그것을 달성 할 수있는 매우 그림이있다.


3
생물학적 연구를하고 있습니다. 나는 박스 플롯을 실제로 파악할 수없는 몇몇 동료들 (박사를 가진 사람들)을 알고있다. 나는 그들을 일반 청중을 목표로 사용하지 않을 것입니다.
nico

1
@nico 그것은 좋은 지적입니다. 그러나 이것이 효율적인 그래픽 요약을 사용하지 않는 이유는 아닙니다. 상자 그림이 실제로하는 일을 개략적으로 설명하면 독자에게 도움이 될 수 있습니다.
chl

1
타겟 잠재 고객이 무엇이며 사이트의 목표가 무엇인지에 달려 있습니다. 박스 플롯을 설명하면 분명히 도움이 될 수 있지만 여전히 일부 사람들은 배포 개념으로 많은 어려움을 겪고 있습니다.
nico

@nico 예, 동의합니다. boxplot은 Visualization Zoo를 통한 둘러보기 에서 언급되지는 않지만 크고 복잡한 데이터 세트를위한 것이지만, 나는 그것을 좋아하기 때문에 실험 과학에서 많이 사용되지 않는다는 것이 유감입니다. 원시 데이터를 중첩하면 독자가 분포를 시각화하는 데 도움이됩니다.
chl

1
알아! 나는 적어도 동료들이 박스 플롯으로 "변환"하려고 노력한다. 적어도 논문을 쓰거나 프리젠 테이션을 할 때는 항상 그래야한다.
nico


7

히스토그램에 인내하는 것이 좋습니다. 그것들은 대안보다 훨씬 널리 이해됩니다. 로그 스케일을 사용하여 넓은 범위의 값에 대처하십시오. 다음은 Stata에서 몇 분 만에 요리 한 예 값 축에 로그 스케일이있는 히스토그램
입니다. x 축 숫자 레이블이 완전히 간단하거나 자동적이지 않다는 것을 인정하지만 웹 사이트를 구축 할 때 프로그래밍 기술이 도전!


좋은 지적. 히스토그램 (또는 대역폭 실험을 통한 밀도 플롯)은 여기서 훌륭한 솔루션입니다.
suncoolsu

히스토그램은 분포를 표시하는 가장 이해하기 쉬운 방법입니다. 두 축 모두 로그 스케일로 히스토그램을 만들려고합니다.
Devdatta Tengshe

2
x 축에 로그 스케일을 사용하는 것이 좋습니다. 주파수 축에 대한 로그 스케일은 좋은 생각이 아니라고 생각합니다. 그러면 히스토그램의 각 막대의 음영 영역이 관측 수에 비례하지 않기 때문입니다.
onestop

5

다음은 상자 그림의 대안으로 여러 히스토그램을 2D로 나란히 표시하기위한 matlab 함수 입니다. 상단의 그림을 참조하십시오. 그리고 여기 또 다른 것이 있습니다

밀도 스트립은 박스 플롯의 또 다른 대안입니다. 점의 어둡기가 해당 점의 수량 확률 밀도에 비례하는 음영 처리 된 단색 스트립입니다. 이것은 밀도 스트립 의 R 구현 입니다


1
(+1) 잊어 버렸습니다. 편리 할 것입니다.
chl

1
음영 으로 표시 불확실성 의 PDF 버전을 찾았습니다 .
chl

@chl : 그 링크가 작동하지 않습니다
kjetil b halvorsen

4

엑스%엑스=0,10,20,...,100


3
내 친구를 인용 : 종이에 무언가를 숨기려면 그림 대신 텍스트에 넣으십시오. 아무도 읽지 않도록하려면 테이블에 넣으십시오! ;) 물론 농담이지만 ​​사용자가 대화 형지도가있는 웹 사이트를 사용하여 테이블을 얻으려면 등을 클릭하십시오 ... 잘하면 실망 할 것입니다!
nico

@nico, 예. 때때로 테이블은 그래프보다 훨씬 유익합니다. 예를 들어 나쁜 그래프 대신 테이블을 선호합니다. 이 경우 테이블을 여전히 그래프로 나타낼 수 있으며 특이 치에 문제가 없으므로 Quantile을 제안했습니다.
mpiktas

그것이 내가 현재하고있는 일이지만 (십진법에 십자 표시) 일부 대상 청중에게 보여준 후 그래프를 이해하기 쉽지 않은 피드백을 받았습니다.
Devdatta Tengshe

2

일반 인구 (예 : 통계에 정통하지 않은 잠재 고객)를 타겟팅하는 경우 통계적 정확성보다는 눈에 띄는 사탕에 집중해야합니다.

바이올린 음모는 물론 상자 그림도 잊어 버립니다 (개인적으로는 읽기가 매우 어렵습니다)! 평범한 거리의 남자에게 Quantile이 무엇인지 물어 보면 대부분 눈에 띄지 않는 침묵이 생길 것입니다 ...

막대 그래프, 거품 형 차트, 원형 차트 (brrrr)를 사용해야합니다. 오류 표시 줄은 잊어 버립니다 (해당하는 경우 SD를 텍스트에 넣을 수는 있지만).

색상, 모양, 굵은 선, 3D를 사용하십시오. 모든 범례 / 축 등을 읽지 않아도 각 차트를 독특하고 즉시 이해하기 쉽게 만들어야합니다.지도를 색칠하여 스마트하게 사용하십시오.

정보가 아름답다 는 것은 아이디어를 얻는 데 아주 좋은 자료입니다. 예를 들어이 도표를보십시오 : 카페인과 칼로리 : 누구나 그것을 이해할 수 있고, 눈을 즐겁게합니다.

물론 Edward Tufte의 작품을 살펴보십시오.


참고 나는 그가 자신의 응용 프로그램에 바이올린 플롯을 사용하는 것이 아니라 로그 간격의 빈이있는 히스토그램을 사용하도록 제안했습니다. 바이올린 음모는 제목의 질문에 대한 답변이었습니다 (포스트 자체의 질문과 다소 달랐습니다).
Dikran Marsupial

3
당신은 아마 좋아할 것입니다 많은 눈 , dataviz , datavisualization.chIdeas2evidence를 좋아할 것 입니다.
chl

2

나는 분포의 모양에 대한 아이디어를 제공하기 때문에 바이올린 음모를 선호합니다. 그러나 넓은 범위의 값이 문제인 경우 원시 값이 아닌 데이터 로그를 플로팅하는 것이 가장 좋으며, 그러면 히스토그램 등의 상자 크기를 선택하게됩니다. 로그를 언급하지 않고 축 10, 100, 1000, 10000, 100000, 1000000 등을 표시하십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.