log (y)를 모델링 할 때 역변환 회귀 결과


11

에 회귀를 맞추고 있습니다. 지수로 변환점 추정값 (및 신뢰 / 예측 간격)을 역행시키는 것이 유효합니까? 이후로 믿지 않지만 다른 사람의 의견을 원했습니다.log(y)E[f(X)]f(E[X])

아래의 예는 역변환과의 충돌을 보여줍니다 (.239 대 .219).

set.seed(123)

a=-5
b=2

x=runif(100,0,1)
y=exp(a*x+b+rnorm(100,0,.2))
# plot(x,y)

### NLS Fit
f <- function(x,a,b) {exp(a*x+b)} 
fit <- nls(y ~ exp(a*x+b),  start = c(a=-10, b=15)) 
co=coef(fit)
# curve(f(x=x, a=co[1], b=co[2]), add = TRUE,col=2,lwd=1.2) 
predict(fit,newdata=data.frame(x=.7))
[1] 0.2393773

### LM Fit
# plot(x,log(y))
# abline(lm(log(y)~x),col=2)
fit=lm(log(y)~x)
temp=predict(fit,newdata=data.frame(x=.7),interval='prediction')
exp(temp)
        fit       lwr       upr
1 0.2199471 0.1492762 0.3240752

1
이것은 로그 링크 된 가우시안 GLM으로 해결되는 문제 중 하나가 아닙니까?
generic_user

@ARM 예 나는 그렇게 믿는다. 지적 해 주셔서 감사합니다. 그러나 GLM을 사용하면 예측 간격을 얻는 것이 더 어렵지만 해결할 수 있다고 생각합니다.
Glen

1
@Glen이 사이트에서 Duan 번짐을 검색하십시오.
Dimitriy V. Masterov

답변:


13

그것은 당신이 다른 쪽 끝에 얻고 싶은 것에 달려 있습니다.

변환 된 매개 변수의 신뢰 구간은 잘 변환됩니다. 로그 스케일에 공칭 적용 범위가있는 경우 변환의 단일성으로 인해 원래 스케일에서 동일한 적용 범위를 다시 갖게됩니다.

미래의 관측을위한 예측 구간도 잘 변환됩니다.

로그 척도의 평균 간격은 일반적으로 원래 척도의 평균 간격이 아닙니다.

그러나 때로는 로그 스케일의 모형에서 원래 스케일의 평균에 대한 정확한 추정치를 정확하게 또는 대략적으로 산출 할 수 있습니다.

그러나주의가 필요하거나 다소 놀라운 특성을 갖는 추정치가 생성 될 수 있습니다 (예를 들어, 자신이 모집단 평균을 갖지 않는 추정치를 생성 할 수 있습니다. 이는 모두가 좋은 생각은 아닙니다).

예를 들어, 로그 정규 사례의 경우 지수를 다시 계산하면 추정치 가되고 모집단 평균이 임을 알 수 있습니다. 이므로 추정치에 따라 를 향상시키는 것으로 생각할 수 있습니다 .exp(μi)exp(μi+12σ2)exp(μi^)exp(12σ2)

조정을 일관되게 추정 할 수있는 한, Slutsky의 정리 (특히 제품 형태)를 통해 적어도 일관된 추정과 실제로는 일부 분포 무증상을 얻을 수 있어야합니다 . 연속 매핑 정리는 일관되게 추정 할 수 있다면 가능하다고 말합니다 .σ2

그래서만큼 일관성 추정기이다 다음 는 의 분포로 분포에 수렴합니다. 검사를 통해 로그 정규 분포 ). 이후 에 대한 일관성이 될 것입니다 , BU 연속 매핑 정리, 에 대한 일관성이 될 것입니다 우리의 일관된 추정을 가지고, 그래서 원래 규모로 평균.σ^2σ2exp(μi^)exp(12σ^2)exp(μi^)exp(12σ2)μi^μiexp(μi^)exp(μi)

여기를 참조 하십시오 .

관련 게시물 :

MLR 모델의 역변환

역변환

역변환 된 신뢰 구간


1
고마워, 나는 이전 게시물을보고 깨달음에도 여전히 다소 혼란 스러웠으므로 내 질문.
Glen

+1 좋은 답변입니다! 간단히 말해 : 는 의 스케일러에서 어디 에서 왔 습니까? 위키 백과의 로그 정규 정의에서 그것을 보았지만 거기에 설명되어 있지 않습니다 .PDF에서 평균을 통합하는 것입니까? ^ σ 212σ2^
usεr11852

1
를 직접 통합하여 얻을 수 있어야합니다. 여기서 는 로그 정규의 밀도입니다. 정규 ( (여기서 )이지만 대한 MGF를 찾는 것이 좋습니다. 이는 더 이상 어렵지 않으며 를 위한 순간을 쉽게 얻을 수 있습니다 (바꾸어서) , 차례로)) 본질적으로 무료로 더 높은 순간을 얻습니다. f E ( e X ) X = log Y X Y t 1 , 2 , . .E(Y)=0yf(y)dyfE(eX)X=logYXYt1,2,...
Glen_b-복지 주 모니카

1
@ usεr11852 후자의 경우 , 밀도에서 또는 를 항으로 가져간 다음 의 제곱을 완성하고 추가 상수를 가져옵니다 (예 : 적분 (정수에 가있는)의 앞쪽에서 정규에 대한 상수 정규화 ), 가우스 pdf를 실제 줄에 통합하고 (원래에서 평균을 이동 한 상태) 1로 통합하고 가져온 상수 만 남겨 둡니다. 전면. 이것은 매우 간단한 대수적 조작에 지나지 않습니다. ctde t x e . . . x 1exetxe...x12
Glen_b-복지국 Monica

1
ctd ... 그리고 로그 정규 의 번째 원시 모멘트는 입니다. e μ t + 1teμt+12σ2t2
Glen_b-복지 주 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.