상자 그림에서 히스토그램이 제공하지 않는 정보는 무엇입니까?


13

히스토그램은 변수의 분포를 잘 보여줍니다. 상자 그림은 같은 일을 시도하지만이 변수의 분포에 대한 그림을 제공하지는 않습니다.

사람들이 왜 상자 그림을 사용하는지 이해하지 못합니다. 히스토그램은 모든면에서 더 좋습니다. 둘 다 사용하는 이유가 있습니까?

박스 플롯이 제공하는 유일한 것은 : 이상치입니다! 어떤 관측치가 특이 치 일지 알려줍니다.


1
히스토그램은 전체 분포를 나타내는 것보다 모든면에서 더 나쁩니 까?
Anthony Martin

2
원하는 것에 따라 상자 그림을 사용하면 히스토그램에없는 정확한 값 (예 : 중앙값, P75)을 가질 수 있습니다. 적은 정보를 표시하지만보다 합성 적입니다. 내 요점은 막대 그래프조차도 전체 분포와 비교하여 단순화되고 정보 낭비라는 것입니다. 그러나 사용하기 쉬울 수 있습니다
Anthony Martin

2
히스토그램의 유용성에 대한 상반된 견해는 stats.stackexchange.com/a/51753 (이 사이트에서 "히스토그램"을 검색하여 찾을 수 있음) 에서 고도로 호평을 받는 게시물에 강력 하게 표현되고 잘 설명 되어 있습니다.
whuber

3
흥미로운 생각이지만 빈 크기를 늘리면 히스토그램이 상자 그림과 같은 모양으로 줄어들면서 컷 포인트 선택에 대한 불행한 의존도는 유지됩니다. 박스 플롯의 장점은 IMHO, 다변량 데이터 탐색 분석을위한 Tukey의 N 문자 요약 사용을 연구하고 그가 당시 연필과 종이로 계산하고 있음을 기억함으로써 가장 잘 이해할 수 있습니다. "방황 회로도 추적"과 같은 시각화의 경우 히스토그램 또는 바이올린 플롯과 같은 조건부 반응의 다른 일 변량 요약은 작동하지 않습니다.
whuber

1
히스토그램의 두 가지 실패 (imo)는 샘플이 적거나 상자의 크기가 잘못된 경우에 발생합니다. 좋은 상자 그림의 약점 (그리고 내가 말할 때 JMP 가변성이라고 생각합니다)은 다중 양식이며 세부 사항입니다. 상자 그림이 빛나는 곳은 샘플이 적을 때입니다. 또한 다른 수준에서 많은 상호 작용 변수가있을 때 좋아합니다. 따라서 JMP 가변성 플롯.
EngrStudent-복직 모니카

답변:


16

박스 플롯이 분포에 대한 더 많은 요약을 제공한다는 사실은 특정 경우에 이점으로 볼 수 있습니다. 분포를 비교할 때 전체 모양에 신경 쓰지 않고 분포가 서로 관련된 위치에 신경 쓰지 않습니다. Quantile을 나란히 표시하는 것은 우리가 신경 쓰지 않을 다른 세부 사항을 방해하지 않으면 서이 작업을 수행하는 유용한 방법이 될 수 있습니다.


1
이것이 가장 좋은 대답입니다. 상자 그림은 히스토그램보다 분포를 비교하는 것이 좋습니다!
kjetil b halvorsen

14

단 변량의 경우, 상자 그림은 히스토그램이 나타내지 않은 정보를 제공합니다 (적어도 명시 적으로는 아님). 즉, 일반적으로 특이 치가 아닌 중앙값, 25 번째 및 75 번째 백분위 수 최소 / 최대를 제공하고 특이 치로 간주되는 점을 명시 적으로 분리합니다. 이것은 모두 히스토그램에서 "눈알"이 될 수 있습니다 (이상치의 경우 눈알이 더 낫습니다).

그러나 훨씬 더 큰 장점은 여러 그룹의 분포를 한 번에 비교하는 것입니다. 10 개 이상의 그룹을 사용하면 나란히 히스토그램을 사용하는 피곤한 작업이지만 상자 그림을 사용하면 매우 쉽습니다.

언급했듯이 바이올린 음모 (또는 콩 음모)는 다소 유익한 대안입니다. 그러나 박스 플롯보다 약간 더 많은 통계 지식이 필요합니다 (즉, 비 통계 사용자에게 제공하는 경우 조금 더 위협적 일 수 있음).


3
+1. 그러나 박스 플롯은 평균이 아니라 중간 값을 제공합니다.
Greenparker

3
누구나 옳을 수 있습니다. 일반적으로 플롯 된 상자 그림은 중앙값을 보여줍니다 (이것이 거부 된 것을 보았지만 예제를 보았던 것을 기억하지는 않습니다). 그러나 일부 구현에서는 수단도 보여줄 수 있습니다. 그것은 종종 좋은 생각입니다.
Nick Cox

지적 해 주셔서 감사합니다. 나는 그것이 보통 평균이라고 생각하고 (정확하지 않은) 극단적 인 경우 매우 이상한 음모를 일으킬 수 있다고 생각합니다.
Cliff AB

1
박스 플롯과 히스토그램과의 나란히 비교 한 값을 보여주는 이미지가 있다면 좋을 것입니다
Rudolf Olah

7
  1. 히스토그램을 보여주고 중앙값이 어디인지 물어 보면 꽤 시간을 알아낼 수있을 것입니다. 그러면 근사치 만 얻을 수 있습니다. 박스 플롯과 똑같이하면 즉시 사용할 수 있습니다. 하면 그건 당신이있는 거 관심에서, 상자 그림은 분명히 이길거야.

  2. 박스 플롯은 단일 샘플의 분포를 설명하는 것만 큼 효과적이지 않다는 데 동의합니다. 왜냐하면 그것들은 몇 점으로 줄어 들었으므로 많은 것을 알려주지 않기 때문입니다.

    그러나 수십 개의 분포를 비교하는 경우 각각의 세부 사항을 모두 쉽게 비교할 수있는 것보다 많은 정보 일 수 있습니다. 정보를 더 적은 수의 항목으로 줄여서 비교할 수 있습니다.

  3. 정보가 많을수록 히스토그램보다 더 나은 선택이 있습니다. 예를 들어 줄기 및 잎 도표 또는 ecdf / quanle 도표.

    또는 히스토그램에 정보를 추가 할 수 있습니다.

한계 박스 플롯이있는 히스토그램 지터가있는 히스토그램 룰 로트 스트립 차트가있는 히스토그램

( 이 답변의 플롯 )

좁은 상자 그림을 여백에 추가하는 첫 번째 항목은 두 디스플레이 중 하나에서 얻을 수있는 이점을 제공합니다.


1

막대 도표는 관측 빈도의 범위 만 제공하는 반면 상자 도표는 분포의 여러 매개 변수 (예 : 막대 도표가 할 수없는 평균 및 분산)가 어디에 있는지를 더 잘 알 수 있습니다. 따라서 상자 분포는 분포가 여러 개인 경우 효과적인 비교 도구로 사용됩니다.


상자 그림에 평균 (거의 항상 중앙값을 사용함)을 표시하는 경우는 거의 없으며 분산을 직접 나타내지 않습니다 . 또한 이러한 수량은 일반적으로 "분포의 매개 변수"로 간주되지 않습니다 . 데이터 의 배치에 대한 설명 통계 입니다 .
whuber

정확하게, 그들은 너무 많은 계산을 수행하지 않고 분포를 설명하는 훌륭한 도구입니다. 그리고 그들은 중앙값을 더 많이 표시하며 많은 경우 두 측정 값이 일치하기 때문에 상자 그림은 평균을 근사화하는 훌륭한 도구입니다.
Shiv_90

귀하의 의견은 데이터기본 분포 와 계속 혼동하는 것 같습니다 . 평균이 모든 데이터 배치의 중앙값과 같지는 않습니다. 또한, 박스 플롯의 가장 좋고 가장 일반적인 용도 중 하나는 비대칭을 식별하는 것인데, 이는 평균과 중앙값 사이의 중요한 차이를 의미합니다. 상자 그림의 원래 개념 뒤에 숨은 기본 원리 중 하나는 강력한 탐색 도구라는 것입니다. 즉, 평균 또는 분산과 같은 민감한 통계를 기반으로하지 않는 것이 좋습니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.