히스토그램은 변수의 분포를 잘 보여줍니다. 상자 그림은 같은 일을 시도하지만이 변수의 분포에 대한 그림을 제공하지는 않습니다.
사람들이 왜 상자 그림을 사용하는지 이해하지 못합니다. 히스토그램은 모든면에서 더 좋습니다. 둘 다 사용하는 이유가 있습니까?
박스 플롯이 제공하는 유일한 것은 : 이상치입니다! 어떤 관측치가 특이 치 일지 알려줍니다.
히스토그램은 변수의 분포를 잘 보여줍니다. 상자 그림은 같은 일을 시도하지만이 변수의 분포에 대한 그림을 제공하지는 않습니다.
사람들이 왜 상자 그림을 사용하는지 이해하지 못합니다. 히스토그램은 모든면에서 더 좋습니다. 둘 다 사용하는 이유가 있습니까?
박스 플롯이 제공하는 유일한 것은 : 이상치입니다! 어떤 관측치가 특이 치 일지 알려줍니다.
답변:
박스 플롯이 분포에 대한 더 많은 요약을 제공한다는 사실은 특정 경우에 이점으로 볼 수 있습니다. 분포를 비교할 때 전체 모양에 신경 쓰지 않고 분포가 서로 관련된 위치에 신경 쓰지 않습니다. Quantile을 나란히 표시하는 것은 우리가 신경 쓰지 않을 다른 세부 사항을 방해하지 않으면 서이 작업을 수행하는 유용한 방법이 될 수 있습니다.
단 변량의 경우, 상자 그림은 히스토그램이 나타내지 않은 정보를 제공합니다 (적어도 명시 적으로는 아님). 즉, 일반적으로 특이 치가 아닌 중앙값, 25 번째 및 75 번째 백분위 수 최소 / 최대를 제공하고 특이 치로 간주되는 점을 명시 적으로 분리합니다. 이것은 모두 히스토그램에서 "눈알"이 될 수 있습니다 (이상치의 경우 눈알이 더 낫습니다).
그러나 훨씬 더 큰 장점은 여러 그룹의 분포를 한 번에 비교하는 것입니다. 10 개 이상의 그룹을 사용하면 나란히 히스토그램을 사용하는 피곤한 작업이지만 상자 그림을 사용하면 매우 쉽습니다.
언급했듯이 바이올린 음모 (또는 콩 음모)는 다소 유익한 대안입니다. 그러나 박스 플롯보다 약간 더 많은 통계 지식이 필요합니다 (즉, 비 통계 사용자에게 제공하는 경우 조금 더 위협적 일 수 있음).
히스토그램을 보여주고 중앙값이 어디인지 물어 보면 꽤 시간을 알아낼 수있을 것입니다. 그러면 근사치 만 얻을 수 있습니다. 박스 플롯과 똑같이하면 즉시 사용할 수 있습니다. 하면 그건 당신이있는 거 관심에서, 상자 그림은 분명히 이길거야.
박스 플롯은 단일 샘플의 분포를 설명하는 것만 큼 효과적이지 않다는 데 동의합니다. 왜냐하면 그것들은 몇 점으로 줄어 들었으므로 많은 것을 알려주지 않기 때문입니다.
그러나 수십 개의 분포를 비교하는 경우 각각의 세부 사항을 모두 쉽게 비교할 수있는 것보다 많은 정보 일 수 있습니다. 정보를 더 적은 수의 항목으로 줄여서 비교할 수 있습니다.
정보가 많을수록 히스토그램보다 더 나은 선택이 있습니다. 예를 들어 줄기 및 잎 도표 또는 ecdf / quanle 도표.
또는 히스토그램에 정보를 추가 할 수 있습니다.
( 이 답변의 플롯 )
좁은 상자 그림을 여백에 추가하는 첫 번째 항목은 두 디스플레이 중 하나에서 얻을 수있는 이점을 제공합니다.
막대 도표는 관측 빈도의 범위 만 제공하는 반면 상자 도표는 분포의 여러 매개 변수 (예 : 막대 도표가 할 수없는 평균 및 분산)가 어디에 있는지를 더 잘 알 수 있습니다. 따라서 상자 분포는 분포가 여러 개인 경우 효과적인 비교 도구로 사용됩니다.