이러한 데이터를 사용하면 실제로 변환 된 규모로 결과를 표시해야한다고 말하고 싶습니다. 이것이 박스 플롯을 그리는 방법보다 첫 번째로 중요하고 중요한 문제입니다.
그러나 나는 프랭크 하렐 (Frank Harrell)에게 최소한의 박스 플롯보다 더 유익한 정보를 촉구하는 데 반향을 일으켰다. 더 많은 정보를 표시 할 수있는 충분한 공간이 있습니다. 다음은 많은 예 중 하나 인 하이브리드 박스와 Quantile 플롯입니다. 데이터에서와 같이 두 그룹이 비교됩니다.
이 두 점을 하나씩 가져 가서 더 말할 것입니다.
변형 된 규모
가장 간단한 경우 모든 값이 양수일 수 있으므로 먼저 로그 스케일을 사용해보십시오.
정확한 제로가있는 경우 제곱근 또는 큐브 근음 스케일은 여전히 극단적 인 왜도를 개선합니다. 어떤 사람들은 0에 대처하는 방법으로 상수가 가장 일반적으로 1 인 log (value + constant)에 만족합니다.
변형 된 스케일 사용의 상자 그림에 대한 의미는 미묘합니다.
상위 사 분위수 + 1.5 IQR 또는 하위 사 분위수-1.5 IQR 이외의 모든 포인트를 개별적으로 표시하는 공통 Tukey 규칙을 사용하는 경우 이러한 제한을 변환 된 스케일에서 계산해야합니다. 즉 하지 후 원래 크기에 그 한계를 계산 바뀌는 동일.
대신 나는 여전히 수염의 끝을위한 Quantile을 선택하는 소수 관행 인 것처럼 보이는 것을지지 할 것이다. 이것의 몇 가지 장점 중 하나는 Quantile의 변환 = 변환의 Quantile이며, 대부분의 경우 그래픽 목적을 위해 충분히 가깝습니다. (작은 인쇄는 Quantile이 인접한 차수 통계 간의 선형 보간에 의해 계산 될 때마다 나타납니다.)
이 Quantile 협약은 Cleveland (1985)에 의해 상당히 두드러지게 제안되었습니다. 기록을 위해, 상자에서 사 분위수까지, 상자가 더 얇은 상자에서 바깥 쪽 옥타 테스 (12.5 및 87.5 % 포인트) 및 스트립 데이터의 스트립 도표가 (예 : Matthews (1936) 및 Grove (1956))에 의해 지리 및 기후학에 사용되었습니다. 이름 "분산도".
상자 이상의 플롯
박스 플롯은 1970 년 경 Tukey에 의해 재발 명되었으며 1977 년 그의 책에서 가장 눈에 띄게 홍보되었습니다. 그의 목적의 대부분은 비공식 탐사에서 펜과 종이를 사용하여 빠르게 그릴 수있는 그래프를 홍보하는 것이 었습니다. 또한 가능한 특이 치를 식별하는 방법을 제안하고있었습니다. 괜찮 았지만 이제는 모두 컴퓨터에 액세스 할 수 있습니다. 모든 데이터는 아니지만 최소한 더 자세히 보여주는 그래프를 그리는 것은 고통스럽지 않습니다. 상자 그림의 요약 역할은 중요하지만 흥미 롭거나 중요 할 경우를 대비하여 그래프에 미세한 구조도 표시 할 수 있습니다. (그리고 연구자들이 흥미롭지 않거나 중요하지 않다고 생각하는 것은 독자들에게 더 충격적 일 수 있습니다.)
정확히 무엇이 가장 효과가 좋은지에 대한 공손한 의견 불일치의 여지가 많지만 맨 박스 그림은 다소 과매도되어 있습니다.
Stata 사용자는 이 Statalist 게시물에서 수치를 그린 프로그램에 대해 더 많은 것을 찾을 수 있습니다 . 다른 소프트웨어를 사용하는 사람은 무언가 좋은 점이나 좋은 점을 그리는 데 어려움이 없어야합니다.
Cleveland, WS 1985. 그래프 데이터 요소. 몬트레이, 캘리포니아 : 워즈워스.
Grove, AT 1956. 나이지리아의 토양 침식. Steel, RW, Fisher, CA (Eds)
영국 열대 지대에 관한 지리학 적 수필. 런던 : George Philip, 79-111.
Matthews, HA 1936. 친숙한 인도 강우에 대한 새로운 견해. Scottish Geographical Magazine 52 : 84-97.
Tukey, JW 1977. 탐색 적 데이터 분석. 독서, MA : 애디슨-웨슬리.