노치 상자 그림을 해석하는 방법


11

일부 EDA를 수행하는 동안 요인의 두 수준 간 차이를 설명하기 위해 상자 그림을 사용하기로 결정했습니다.

ggplot 이 박스 플롯을 렌더링하는 방식 은 만족 스럽지만 약간 단순합니다 (아래의 첫 번째 플롯). 박스 플롯의 특성을 연구하는 동안 노치를 실험하기 시작했습니다.

나는 노치가 중앙값 주위에 CI를 표시한다는 것을 이해하고 두 상자의 노치가 겹치지 않으면 95 % 신뢰 수준에서 중간 값이 다르다는 '강력한 증거'가 있다는 것을 알고 있습니다.

필자의 경우 (두 번째 줄거리), 노치는 의미가 겹치지 않습니다. 그러나 왜 오른쪽 상자의 바닥이 그 이상한 형태를 취합니까?

바이올린 플롯에서 동일한 데이터를 플로팅한다고해서 해당 바이올린의 확률 밀도에 특이한 것은 나타나지 않았습니다.

그림 1 상자 그림

그림 2 노치 상자 그림


1
ggplot 코드에서는 현재 am이 숫자 변수로 사용되므로 fill = factor (am)을 사용해야합니다.
rnso

@rnso
RDJ

누구나 원본 데이터를 게시 할 수 있습니까? 나는 표준 샌드 박스에서 온 것 같습니다 ggplot2. 개별 데이터 포인트를 플롯하는 아이디어가 마음에 들지만 어두운 상자 내의 포인트가 보이지 않는 한 좌절됩니다.
Nick Cox

답변:


18

필자의 경우 (두 번째 줄거리), 노치는 의미가 겹치지 않습니다. 그러나 왜 오른쪽 상자의 바닥이 그 이상한 형태를 취합니까? 어떻게 설명해야합니까?

25 번째 백분위 수가 약 21, 75 번째 백분위 수가 약 30.5임을 나타냅니다. 그리고 노치의 하한과 상한은 약 18과 27입니다.

일반적인 이유는 분포가 왜곡되었거나 표본 크기가 작기 때문입니다. 노치의 경계는 다음을 기반으로합니다.

median±1.57×IQRn

중앙값과 25 번째 백분위 수 사이의 거리와 중앙값과 75 번째 백분위 수 사이의 거리가 극도로 다르고 (오른쪽의 것과 같음) 표본 크기가 작 으면 노치가 더 넓어집니다. 노치 경계가 25 번째 및 75 번째 백분위 수 (일명 박스)보다 더 넓을 정도로 넓 으면 노치 된 상자 그림에이 "내부"모양이 표시됩니다.


1
자세한 설명을 주셔서 감사합니다. 왜 노치의 상한과 하한이 18과 27이 아닌 17과 24에 해당합니까? (오른쪽 상자 그림)?
데니스

@Denis, 그것을 잡아 주셔서 감사합니다. 수정했습니다.
Penguin_Knight
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.