이 비닝 된 데이터 를 일부 분포 모델 에 맞출 필요가 있습니다. 그것이 상위 사 분위수에 외삽하는 유일한 방법이기 때문입니다.
모델
F01(a,b]F(b)−F(a)θ{Fθ}FθL
L(θ)=(Fθ(8)−Fθ(6))51(Fθ(10)−Fθ(8))65⋯(Fθ(∞)−Fθ(16))182
51Fθ(8)−Fθ(6)65Fθ(10)−Fθ(8)
모델을 데이터에 피팅
θLL
θ=(μ,σ)
F(μ,σ)(x)=12π−−√∫(log(x)−μ)/σ−∞exp(−t2/2)dt.
LR
log(L(θ))log(L)Llog(L)
logL <- function(thresh, pop, mu, sigma) {
l <- function(x1, x2) ifelse(is.na(x2), 1, pnorm(log(x2), mean=mu, sd=sigma))
- pnorm(log(x1), mean=mu, sd=sigma)
logl <- function(n, x1, x2) n * log(l(x1, x2))
sum(mapply(logl, pop, thresh, c(thresh[-1], NA)))
}
thresh <- c(6,8,10,12,14,16)
pop <- c(51,65,68,82,78,182)
fit <- optim(c(0,1), function(theta) -logL(thresh, pop, theta[1], theta[2]))
θ=(μ,σ)=(2.620945,0.379682)fit$par
모델 가정 확인
F
predict <- function(a, b, mu, sigma, n) {
n * ( ifelse(is.na(b), 1, pnorm(log(b), mean=mu, sd=sigma))
- pnorm(log(a), mean=mu, sd=sigma) )
적합하거나 "예측 된"빈 모집단을 얻기 위해 데이터에 적용됩니다.
pred <- mapply(function(a,b) predict(a,b,fit$par[1], fit$par[2], sum(pop)),
thresh, c(thresh[-1], NA))
데이터의 히스토그램과 예측을 그려 시각적으로 비교할 수 있습니다 (이 도표의 첫 번째 행에 표시됨).
이를 비교하기 위해 카이 제곱 통계량을 계산할 수 있습니다. 이것은 일반적으로 유의성을 평가하기 위해 카이 제곱 분포를 말합니다 .
chisq <- sum((pred-pop)^2 / pred)
df <- length(pop) - 2
pchisq(chisq, df, lower.tail=FALSE)
0.00876−8630.40
피팅을 사용하여 Quantile 추정
63(μ,σ)(2.620334,0.405454)F75th
exp(qnorm(.75, mean=fit$par[1], sd=fit$par[2]))
18.066317.76
이 절차와이 코드는 일반적으로 적용될 수 있습니다. 최대 우도 이론은 제 3 사 분위수 주위의 신뢰 구간을 계산하기 위해 더 활용 될 수 있습니다.