답변:
이 코드는 상자 그림을 만든 다음 각 상자의 평균을 표시하는 원을 배치합니다. 에 대한 호출에서 마커 인수를 지정하여 다른 기호를 사용할 수 있습니다 scatter
.
import numpy as np
import pylab
# 3 boxes
data = [[np.random.rand(100)] for i in range(3)]
pylab.boxplot(data)
# mark the mean
means = [np.mean(x) for x in data]
pylab.scatter([1, 2, 3], means)
두 번째 질문에 대답하기 위해 : 네, 중간 값 대신 평균값으로 라인을 배치하는 것이 혼란 스러울 것입니다. '위스커 (whisker)'의 길이 (있는 경우)와 이상치의 처리를 제어하는 정확한 규칙은 다양하지만, 모든 사람은 상자를 중간 및 아래쪽 및 위쪽 사 분위를 표시하는 데 사용합니다. 치우친 분포의 경우 평균이 상자 외부에 있을 수 있으며 이는 매우 이상하게 보입니다. 일반적인 사용법은 중간 값이 사 분위수 범위를 따르는 반면 평균은 표준 편차 (또는 데이터 설명이 아니라 추론에 관심이있는 경우 평균의 표준 오차)를 따릅니다. 평균을 시각적으로 표시하려면 혼란을 피하기 위해 다른 기호를 사용하여 표시하십시오.