히스토그램에서 평균을 나타내는 것이 적절합니까?


13

평균값을 시각화하기 위해 히스토그램에 수직선을 추가하는 것이 "좋아"입니까?

나에게는 괜찮은 것 같지만 교과서와 같은 것에서는 이것을 본 적이 없으므로 그렇게하지 않는 어떤 종류의 협약이 있는지 궁금합니다.

그래프는 용어 용지에 대한 것이므로 실수로 중요하지 않은 통계 통계 규칙을 실수로 위반하지 않도록하고 싶습니다. :)


왜 안돼? 의견을 추가하십시오. 평균은 히스토그램과 같은 요약 값입니다. 예를 들어 히스토그램의 버킷 크기에 따라 제공되는 정보의 정도를 변경할 수 있습니다. 그러나 일반적으로 히스토그램은 평균보다 더 많은 정보를 제공합니다. 실제로 히스토그램에서 평균값을 추정 할 수 있습니다. 나는 그것이 함께 제공되지 않는 이유라고 생각합니다.
Simone

때때로 중첩 분포 (예 : 가장 일반적으로 샘플 평균과 표준 편차를 사용하여 정규 분포를 사용하여 분포)가있는 히스토그램을 볼 수 있습니다. 평균은 곡선의 최고점입니다.)
James Stanley

답변:


30

물론, 왜 안됩니까?

평균 히스토그램

다음은 예입니다 (단순한 Google 검색으로 찾은 수십 개 중 하나).

평균과 중앙값을 가진 hist

(이미지 소스, 측정의 유용성 블로그입니다 여기에 .)

나는 표준 편차를 더하거나 뺀 것을 의미합니다. 중간, 사 분위수, 10 번째 및 90 번째 백분위 수와 같은 다양한 Quantile은 모두 다양한 방식으로 표시됩니다.

플롯을 가로 질러 선을 그리는 대신, 하단에 정보를 표시 할 수 있습니다.

한계 박스 플롯이있는 히스토그램

아래에있는 대신 맨 위에 상자 그림이있는 예제 (많은 것들 중 하나)가 있습니다 (here) .

때때로 사람들은 데이터에 표시합니다.

지터가있는 히스토그램 룰 로트
(값이 정수로 반올림되어 상대 밀도를 잘 볼 수 없기 때문에 데이터 위치가 약간 흔들 렸습니다.)

이 페이지 에는 Stata에서 수행 된 이러한 종류의 예가 있습니다 ( 여기서 세 번째 참조 ).

히스토그램은 약간의 추가 정보 만으로도 더 좋습니다. 스스로 잘못 인도 할 수 있습니다.

당신은 당신의 음모가 무엇을 구성하는지 설명하기 위해주의를 기울여야합니다! (여기서 처음 사용했던 것보다 더 나은 제목과 x 축 레이블을 원할 것입니다. 여기에 표시 한 내용을 설명하는 그림 캡션에 대한 설명이 있습니다.)

-

마지막 줄거리 :

스트립 차트가있는 히스토그램

-

내 음모가 R로 생성됩니다.

편집하다:

@gung이 추측했듯이 abline(v=mean...플롯을 가로 질러 평균 라인 rug을 그리는 데 사용되었고 데이터 값을 그리는 데 사용되었습니다 ( rug(jitter(...데이터가 정수로 반올림 되었기 때문에 실제로 사용되었지만 ).

히스토그램과 축 사이에서 상자 그림을 수행하는 방법은 다음과 같습니다.

hist(Davis2[,2],n=30)
boxplot(Davis2[,2],
  add=TRUE,horizontal=TRUE,at=-0.75,border="darkred",boxwex=1.5,outline=FALSE)

나는 모든 것이 무엇인지 나열하지 않을 것이지만, 도움말 ( ?boxplot) 의 주장을 확인하여 그들이 무엇을 찾고 있는지 직접 알아볼 수 있습니다.

그러나 일반적인 해결책은 아닙니다. 여기에서와 같이 항상 작동하지만 보장하지는 않습니다 (이미 옵션 atboxwex옵션을 이미 변경했습니다 *). 모든 것을 돌보기 위해 지능적인 기능을 작성하지 않으면 원하는 모든 일을 수행하기 위해 모든 일에주의를 기울여야합니다.

내가 사용한 데이터를 만드는 방법은 다음과 같습니다 (Theil 회귀 분석이 실제로 영향력있는 여러 특이 치를 처리하는 방법을 보여 주려고했습니다). 이 질문에 처음 대답했을 때 내가 가지고 있던 데이터였습니다.

 library("car")
 add <- data.frame(sex=c("F","F"),
       weight=c(150,130),height=c(NA,NA),repwt=c(55,50),repht=c(NA,NA))
 Davis2 <- rbind(Davis,add)

*-적절한 값 at은 -0.5 배의 값이다 boxwex. 함수를 작성하면 좋은 기본값이됩니다. boxwex박스 플롯의 y 스케일 (높이)과 관련된 방식으로 스케일링해야합니다. 상단 y 제한의 0.04 ~ 0.05 배가 종종 괜찮을 수도 있습니다.

한계 스트립 차트 코드 :

 hist(Davis2[,2],n=30)
 stripchart(jitter(Davis2[,2],amount=.5),
       method="jitter",jitter=.5,pch=16,cex=.05,add=TRUE,at=-.75,col='purple3')

+1, 이것들은 좋습니다; 코드를 추가 할까? abline(v=mean(Davis2[,2]))& rug(Davis2[,2])나는 추측 할 것이다. 그러나 당신은 어떻게 거기에 boxplot을 쐐기로 만들 었는가?
gung-복직 모니카

1
@gung 상자 그림이있는 것과 유사한 재현 가능한 예를 포함하여 간략한 세부 정보는 편집을 참조하십시오. 실제로 boxplot함수 에 대한 여러 가지 인수를 사용하는 것보다 더 영리한 일은 없습니다 . 사이 boxplot에서 boxp당신은 약간의 노력으로 다소 멋진 일을 할 수 있습니다.
Glen_b-복지 주 모니카

오랜 세월의 지혜 : "모든 것을 돌보는 지능적인 기능을 작성하지 않으면, 원하는 것을하고 있는지 확인하기 위해 모든 일에주의를 기울여야합니다";-).
gung-복직 모니카

네. 나는 심지어 영리한 무언가를 설정하는 atboxwex을 생각했습니다 ...하지만 기껏해야 1 년과 같은 몇 가지 줄거리 만 할 뿐이며? boxplot을 입력하고 올바른 옵션을 설정하는 데 몇 초가 걸립니다. 내가하고있는 일에주의를 기울이는 것이 더 쉽다는 것을 알았습니다.
Glen_b-복지 주 모니카

@ gung 사용하고있는 Davis2 데이터를 작성하는 코드를 제공하도록 편집했습니다. 희망이 도움이됩니다.
Glen_b-복원 모니카

3

물론 당신은 할 수. 선의 의미를 명확하게 표시 / 표시하고 플롯을 너무 바쁘게 만들지 마십시오.

너무 많은 정보를 전달하여 쉽게 이해할 수없는 그래프보다 나쁘지는 않습니다. 이 표는 간결하고 간결하게 요약 통계를 표시하기 위해 간과되는 방법입니다.


2

이전 답변은 훌륭한 지적이지만 여기에 추가해야 할 기본 사항이 하나 있습니다.

평균은 분포의 무게 중심이므로 히스토그램의 중심점입니다. 분포가 균형을 이루는 곳입니다. 따라서 상호 관계가 있습니다. 평균이 히스토그램에 대한 생각을 도울 수있을뿐만 아니라 히스토그램이 평균에 대한 생각을 도울 수 있습니다. 분포가 치우쳐 있고 분포의 평균이 반드시 중간에 있지 않을 때 더 유용합니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.