일부 EDA를 수행하는 동안 요인의 두 수준 간 차이를 설명하기 위해 상자 그림을 사용하기로 결정했습니다.
ggplot 이 박스 플롯을 렌더링하는 방식 은 만족 스럽지만 약간 단순합니다 (아래의 첫 번째 플롯). 박스 플롯의 특성을 연구하는 동안 노치를 실험하기 시작했습니다.
나는 노치가 중앙값 주위에 CI를 표시한다는 것을 이해하고 두 상자의 노치가 겹치지 않으면 95 % 신뢰 수준에서 중간 값이 다르다는 '강력한 증거'가 있다는 것을 알고 있습니다.
필자의 경우 (두 번째 줄거리), 노치는 의미가 겹치지 않습니다. 그러나 왜 오른쪽 상자의 바닥이 그 이상한 형태를 취합니까?
바이올린 플롯에서 동일한 데이터를 플로팅한다고해서 해당 바이올린의 확률 밀도에 특이한 것은 나타나지 않았습니다.
ggplot2
. 개별 데이터 포인트를 플롯하는 아이디어가 마음에 들지만 어두운 상자 내의 포인트가 보이지 않는 한 좌절됩니다.