정규 분포를 따르는 임의의 숫자 세트를 고려하십시오.
x <- rnorm(n=1000, mean=10)
우리는 평균에 대한 평균과 표준 오차를 알고 싶습니다. 그래서 우리는 다음을 수행합니다.
se <- function(x) { sd(x)/sqrt(length(x)) }
mean(x) # something near 10.0 units
se(x) # something near 0.03 units
큰!
그러나 원래 분포가 정규 분포를 따른다는 것을 반드시 알 필요는 없다고 가정 해 봅시다. 데이터를 로그 변환하고 동일한 표준 오류 계산을 수행합니다.
z <- log(x, base=10)
mean(z) # something near 1 log units
se(z) # something near 0.001 log units
멋지지만 이제 로그 단위가 아닌 단위로 답을 얻으려면 역변환해야합니다.
10^mean(z) # something near 10.0 units
10^se(z) # something near 1.00 units
내 질문 : 정규 분포의 경우 분포 자체에서 계산되었는지, 변환, 계산 및 역 변환되었는지에 따라 표준 오차가 다른 이유는 무엇입니까? 참고 : 변환에 관계없이 평균이 동일하게 나왔습니다.
편집 # 1 : 궁극적으로 비정규 분산 데이터의 평균 및 신뢰 구간 계산에 관심이 있으므로 기본 단위로 역 변환하는 방법을 포함하여 변환 된 데이터에서 95 % CI를 계산하는 방법에 대한 지침을 제공 할 수 있습니다 , 감사 드리고 싶군요!
편집 편집 # 1
편집 # 2 : Quantile 함수를 사용하여 95 % 신뢰 구간을 얻으려고했습니다.
quantile(x, probs = c(0.05, 0.95)) # around [8.3, 11.6]
10^quantile(z, probs = c(0.05, 0.95)) # around [8.3, 11.6]
그래서 그것은 같은 대답으로 수렴되었습니다. 그러나이 방법을 사용한다고해서 "작은"표본 크기를 가진 비정규 데이터를 사용하는 정확한 간격을 제공하지는 않습니다.
t <- rlnorm(10)
mean(t) # around 1.46 units
10^mean(log(t, base=10)) # around 0.92 units
quantile(t, probs = c(0.05, 0.95)) # around [0.211, 4.79]
10^(quantile(log(t, base=10), probs = c(0.05, 0.95))) # around [0.209, 4.28]
"보다 정확한"방법으로 간주되는 방법 가장 보수적 인 견적을 선택한다고 가정합니까?
예를 들어, 비정규 데이터 (t)에 대한이 결과를 95 % 신뢰 구간이 [0.211, 4.79] 인 평균 0.92 단위로보고합니까?
편집 편집 # 2
시간 내 줘서 고마워!