답변:
우선, 평균이 당면한 작업에 적합한 색인인지 확인합니다. 비대칭 분포의 "전형적 또는 중심적 가치"를 찾고 있다면 평균이 다소 비 대표적 가치를 가리킬 수 있습니다. 로그 정규 분포를 고려하십시오.
x <- rlnorm(1000)
plot(density(x), xlim=c(0, 10))
abline(v=mean(x), col="red")
abline(v=mean(x, tr=.20), col="darkgreen")
abline(v=median(x), col="blue")
평균 (빨간색 선)은 대부분의 데이터에서 멀리 떨어져 있습니다. 20 % 트림 평균 (녹색) 및 중앙값 (파란색)이 "일반"값에 더 가깝습니다.
결과는 "비정규"분포의 유형에 따라 다릅니다 (실제 데이터의 히스토그램이 도움이 됨). 기울어지지 않았지만 꼬리가 짙 으면 CI가 매우 넓습니다.
어쨌든 부트 스트래핑은 비대칭 CI를 제공 할 수 있기 때문에 실제로 좋은 접근 방법이라고 생각합니다. R
패키지는 simpleboot
좋은 시작이다 :
library(simpleboot)
# 20% trimmed mean bootstrap
b1 <- one.boot(x, mean, R=2000, tr=.2)
boot.ci(b1, type=c("perc", "bca"))
... 다음과 같은 결과를 제공합니다.
# The bootstrap trimmed mean:
> b1$t0
[1] 1.144648
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 2000 bootstrap replicates
Intervals :
Level Percentile BCa
95% ( 1.062, 1.228 ) ( 1.065, 1.229 )
Calculations and Intervals on Original Scale
다음을 계산하여 로그 정규 분포를 시도하십시오.
예상 값에 대한 비대칭 신뢰 구간 (원시 데이터의 평균이 아님)으로 끝납니다.