이 데이터는 감마 분포와 달리 로그 정규 분포에 비해 꼬리가 짧습니다.
set.seed(17)
par(mfcol=c(1,1))
x <- rgamma(500, 1.9)
qqnorm(log(x), pch=20, cex=.8, asp=1)
abline(mean(log(x)) + .1,1.2*sd(log(x)), col="Gray", lwd=2)
그럼에도 불구하고, 데이터 가 크게 왜곡되었으므로 평균과 신뢰 구간을 추정하는 데 가장 큰 값이 중요한 역할을 할 것으로 예상 할 수 있습니다. 따라서 로그 정규 (LN) 추정값이 평균과 두 신뢰 한계 를 과대 평가 하는 경향이있을 것으로 예상해야 합니다 .
일반적인 추정량, 즉 표본 평균과 정규 이론 신뢰 구간을 확인하고 비교해 봅시다. 일반적인 추정량은 데이터가 아니라 표본 평균 의 대략적인 정규성에만 의존하며 , 이러한 대규모 데이터 집합을 사용하면 효과가있을 것으로 예상 할 수 있습니다. 이렇게하려면 ci
함수를 약간 수정해야 합니다.
ci <- function (x, alpha=.05) {
z <- -qnorm(alpha / 2)
y <- log(x); n <- length(y); s2 <- var(y)
m <- mean(y) + s2 / 2
d <- z * sqrt(s2 / n + s2 * s2 / (2 * (n - 1)))
exp(c(mean=m, lcl=m-d, ucl=m+d))
}
다음은 정규 이론 추정치에 대한 병렬 함수입니다.
ci.u <- function(x, alpha=.05) {
mean(x) + sd(x) * c(mean=0, lcl=1, ucl=-1) / sqrt(length(x)) * qnorm(alpha/2)
}
이 시뮬레이션 된 데이터 셋에 적용하면 출력은
> ci(x)
mean lcl ucl
2.03965 1.87712 2.21626
> ci.u(x)
mean lcl ucl
1.94301 1.81382 2.07219
ci.u
1.9
trial <- function(n=500, k=1.9) {
x <- rgamma(n, k)
cbind(ci(x), ci.u(x))
}
set.seed(17)
sim <- replicate(5000, trial())
1.9
xmin <- min(sim)
xmax <- max(sim)
h <- function(i, ...) {
b <- seq(from=floor(xmin*10)/10, to=ceiling(xmax*10)/10, by=0.1)
hist(sim[i,], freq=TRUE, breaks=b, col="#a0a0FF", xlab="x", xlim=c(xmin, xmax), ...)
hist(sim[i,sim[i,] >= 1.9], add=TRUE,freq=TRUE, breaks=b, col="#FFa0a0",
xlab="x", xlim=c(xmin, xmax), ...)
}
par(mfcol=c(2,3))
h(1, main="LN Estimate of Mean")
h(4, main="Sample Mean")
h(2, main="LN LCL")
h(5, main="LCL")
h(3, main="LN UCL")
h(6, main="UCL")
로그 정규 프로 시저가 평균 및 신뢰 한계를 과대 평가하는 경향이있는 반면, 일반적인 프로시 저는 제대로 작동합니다. 신뢰 구간 절차의 적용 범위를 추정 할 수 있습니다.
> sapply(c(LNLCL=2, LCL=5, LNUCL=3, UCL=6), function(i) sum(sim[i,] > 1.9)/dim(sim)[2])
LNLCL LCL LNUCL UCL
0.2230 0.0234 1.0000 0.9648
이 계산은 말합니다 :
LN 하한은 의도 된 2.5 % 대신에 시간의 약 22.3 %를 참는 데 실패합니다.
일반적인 하한은 의도 된 2.5 %에 가까운 시간의 실제 평균 약 2.3 %를 커버하지 못합니다.
LN 상한 은 의도 한대로 시간의 2.5 % 아래로 떨어지지 않고 항상 실제 평균을 초과합니다. 이로 인해 95 % 신뢰 구간 대신 양면 100 %-(22.3 % + 0 %) = 77.7 % 신뢰 구간이됩니다.
일반적인 상한선은 시간의 약 100-96.5 = 3.5 %에 해당하는 실제 평균을 커버하지 못합니다. 이는 의도 된 값 2.5 %보다 약간 큽니다. 따라서 일반적인 한계는 95 % 신뢰 구간 대신 양측 100 %-(2.3 % + 3.5 %) = 94.2 % 신뢰 구간으로 구성됩니다.
로그 정규 구간에 대한 공칭 범위의 95 %에서 77.7 % 로의 감소는 끔찍합니다. 일반적인 간격 동안 94.2 % 로의 감소는 전혀 나쁘지 않으며 왜곡 (원시 데이터의 로그가 아닌)의 영향으로 인한 것일 수 있습니다.
우리는 결론해야 더 분석 평균의이 해야 하지 lognormality을 가정합니다.
조심해! 예측 한계와 같은 일부 절차는 평균에 대한 이러한 신뢰 한계보다 왜곡에 더 민감하므로 왜곡 된 분포를 고려해야합니다. 그러나 로그 정규 절차가 실제로 의도 된 분석을 위해 이러한 데이터로 잘 수행되지는 않을 것 같습니다.