Andy Fields 등이 R 을 사용한 통계 발견의 섹션 1.7.2는 평균 대 중앙값의 장점을 나열하면서 다음과 같이 설명합니다.
... 평균은 다른 샘플에서 안정적입니다.
이것은 중간의 많은 미덕을 설명한 후에, 예를 들어
... 중앙값은 분포의 양쪽 끝에서 극한 점수의 영향을받지 않습니다 ...
중앙값이 극단적 인 점수에 상대적으로 영향을받지 않는다는 것을 감안할 때, 나는 샘플에서 더 안정적이라고 생각했을 것입니다. 그래서 저자의 주장에 당황했습니다. 시뮬레이션을 실행했는지 확인하기 위해 – 1M 난수를 생성하고 100 개의 숫자를 1000 번 샘플링하고 각 샘플의 평균 및 중앙값을 계산 한 다음 해당 샘플 평균 및 중앙값의 sd를 계산했습니다.
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
보시다시피 평균이 중앙값보다 더 밀접하게 분포되어 있습니다.
첨부 된 이미지에서 빨간색 히스토그램은 중간 값을위한 것입니다. 알 수 있듯이 키가 작고 꼬리가 굵고 저자의 주장을 확인합니다.
그래도 나는 이것에 화를 냈다! 보다 안정적인 중앙값이 어떻게 샘플마다 더 다양 해지는 경향이 있습니까? 역설적 인 것 같습니다! 모든 통찰력을 주시면 감사하겠습니다.
rnorm
와 함께 rcauchy
.