데이터 분포는 정상일 필요는 없습니다. 샘플링 분포 는 거의 정상이어야합니다. 표본 크기가 충분히 클 경우, 중앙 한계 정리 로 인해 Landau Distribution의 평균 표본 분포가 거의 정상이어야합니다 .
따라서 데이터와 함께 t-test를 안전하게 사용할 수 있어야합니다.
예
이 예를 고려해 봅시다 : mu = 0 및 sd = 0.5 인 Lognormal 분포를 가진 모집단이 있다고 가정 합니다 (Landau와 약간 비슷 함).
따라서 표본의 평균을 계산할 때마다이 분포에서 5000 번의 관측 값을 5000 번 샘플링합니다.
그리고 이것이 우리가 얻는 것입니다
꽤 평범 해 보이죠? 표본 크기를 늘리면 더 분명해집니다
R 코드
x = seq(0, 4, 0.05)
y = dlnorm(x, mean=0, sd=0.5)
plot(x, y, type='l', bty='n')
n = 30
m = 1000
set.seed(0)
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 30')
x = seq(0.5, 1.5, 0.01)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))
n = 300
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 300')
x = seq(1, 1.25, 0.005)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))