선형 회귀 예측 간격


24

내 데이터 포인트 중 최고의 선형 근사치 (최소 제곱 사용)가 선 이면 근사 오차를 어떻게 계산할 수 있습니까? 관측 값과 예측값 의 차이의 표준 편차를 계산하면 나중에 실수 (관측되지는 않음) 값 이 구간 정규 분포를 가정 할 때 확률이 ~ 68 % 인 ( )?e i = r e a l ( x i ) ( m x i + b ) y r = r e a l ( x 0 ) [ y pσ , y p + σ ] y p = m x 0 + by=mx+bei=real(xi)(mxi+b)yr=real(x0)[ypσ,yp+σ]yp=mx0+b

명확히하기 위해 :

함수 에 대해 몇 가지 점 평가하여 관찰했습니다 . 이 관측 값을 줄에 맞 춥니 다 . 들어 내가 관찰하지 않았다, 내가 얼마나 큰 깡통 알고 싶습니다 F를 (x_0) -l (x_0) 합니다. 위의 방법을 사용하면 f (x_0) \ in [l (x_0)-\ sigma, l (x_0) + \ sigma] 와 prob를 사용하는 것이 맞습니다 . ~ 68 %?(X) L ( X ) = m (X) + (B) X 0 F ( X 0 ) - L ( X 0 ) F ( X 0 ) [ L ( X 0 ) - σ , L ( X 0 ) + σ ]f(x)xil(x)=mx+bx0f(x0)l(x0)f(x0)[l(x0)σ,l(x0)+σ]


1
예측 간격에 대해 묻는 것 같습니다. 그러나 " " 대신 " " 를 사용하십시오 . 오타입니까? 우리 예측 하지 않습니다 . y xiyix
gung-Monica Monica 복원

@ gung : 예를 들어 시간을 나타 내기 위해 를 사용 하고, 는 그 당시 일부 변수의 값 을 나타내 므로 는 시간에 를 관찰했음을 의미합니다 . 피팅 함수 예측이 실제 y 값에서 얼마나 멀리 떨어져 있는지 알고 싶습니다. 말이 돼? 기능 의 "정확한"값 반환 에서 , 내 데이터 포인트로 구성 . y y = f ( x ) y x r e a l ( x i ) y x i ( x i , r e a l ( x i ) )xyy=f(x)yxreal(xi)yxi(xi,real(xi))
bmx

1
완벽하게 합리적입니다. 내가 중점을 둔 부분은 예를 들어 " "입니다. 일반적으로 모델의 오류 / 잔류는 " " . 잔차의 SD는 않는다 예측 구간을 산출하는 역할을한다. " "는 저에게 이상합니다. 나는 그것이 오타인지 궁금하거나, 내가 알지 못하는 것에 대해 묻는 것입니다. e i = y i( m x i + b )ei=real(xi)(mxi+b)ei=yi(mxi+b)xi
gung-Monica Monica 복원

나는 내가 본 것 같아요; 편집 내용이 누락되었습니다. 이것은 시스템이 완벽하게 결정적 실제 기본 기능에 액세스 할 수 있으면 항상 오류 완벽하게 예측할 수 있습니다. 그것은 우리가 일반적으로 reg 모델에 대해 생각하는 방식이 아닙니다. yi
gung-Monica Monica 복원

4
bmx, 귀하의 질문에 대한 명확한 아이디어가 있고 일부 문제에 대해 잘 알고있는 것 같습니다. 밀접하게 관련된 세 가지 스레드를 검토하는 것이 좋습니다. stats.stackexchange.com/questions/17773 은 비 기술적 용어로 예측 간격을 설명합니다. stats.stackexchange.com/questions/26702 는보다 수학적 설명을 제공합니다. 과에 stats.stackexchange.com/questions/9131 , 롭 Hyndman은 당신이 찾는 공식을 제공합니다. 이것들이 귀하의 질문에 완전히 대답하지 못하면, 적어도 그것들을 명확히하기 위해 표준 표기법과 어휘를 줄 수 있습니다.
whuber

답변:


30

@whuber는 세 가지 좋은 답변을 지적했지만 여전히 가치있는 것을 쓸 수 있습니다. 내가 이해하는 당신의 명백한 질문은 다음과 같습니다.

내 피팅 주어 Y I = m X I + By^i=m^xi+b^ (통지 I '는 모자'첨가) , 내 잔류 정상적으로 분산되었다고 가정 아직 같은 것을 예측할 수있다, 관측 응답 Y N 개의 E w 공지 된 예측 값으로, X N E가 , 간격 내에있는 것 ( - σ E , Y +의 σN(0,σ^e2)ynewxnew , 확률 68 %?(y^σe,y^+σe)

직관적으로 대답은 '예'인 것처럼 보이지만 실제 대답은 아마도 입니다. 이는 매개 변수 (즉, & σ )가 알려져 있고 오류가없는 경우입니다. 이러한 매개 변수를 추정 했으므로 불확실성을 고려해야합니다. m,b,σ

먼저 잔차의 표준 편차에 대해 생각해 봅시다. 이는 데이터에서 추정되므로 추정치에 약간의 오차가있을 수 있습니다. 결과적으로 예측 구간을 구성하는 데 사용해야하는 분포 는 정규 값이 아닌 이어야합니다 . 그러나, t 는 정상으로 빠르게 수렴하기 때문에 실제로는 문제가되지 않습니다. tdf errort

그래서, 우리는 그냥 사용할 수 있습니다 Y 새로운 ± t ( 1 - α / 2 , DF 오류 ) 대신 y를 새로운 ± Z ( 1 - α / 2 ) , 그리고 우리의 메리 방법에 대해 가지? 불행하게도. 더 큰 문제는 귀하의 추정에 의한 불확실성에 그 위치에있는 응답의 조건부 평균의 당신의 추정에 대한 불확실성이 있다는 것이다 해요 & B를 . 그러므로,y^new±t(1α/2, df error)sy^new±z(1α/2)sm^b^당신의 예측의 표준 편차는보다 더 통합 할 필요가 serror . 왜냐하면 분산 부가 상기 예측의 추정 분산이있을 것이다 : 공지 그 " X "새에 대한 특정 값을 나타내는 첨자 " s 2 "는 상응하는 아래 첨자이다. 즉, 예측 간격은 x를 따라 새 관측치의 위치에 따라 결정됩니다.

spredictions(new)2=serror2+Var(m^xnew+b^)
xs2x중심선. 예측의 표준 편차는 다음 공식으로보다 편리하게 추정 할 수 있습니다. 흥미로운 부수적으로이 방정식에서 예측 구간에 대한 몇 가지 사실을 유추 할 수 있습니다. 우선, 예측 구간은 우리가 (이하에서 불확실성이 있기 때문에 이것이 예측 모델을 구축 할 때 우리가 가진 데이터보다 좁은 것m&B에). 둘째,세 번째 항에 대한 분자는0이기 때문에 모형을 개발하는 데 사용한x값의 평균으로 예측하면 가장 정확합니다. 그 이유는 정상적인 상황에서x의 평균에서 추정 기울기에 대한 불확실성이 없기 때문입니다.
spredictions(new)=serror2(1+1N+(xnewx¯)2(xix¯)2)
m^b^x0x회귀선의 실제 수직 위치에 대한 약간의 불확실성. 따라서 예측 모델을 구축하기 위해 배워야 할 교훈은 다음과 같습니다. '의미'를 찾는 것이 아니라 미래 예측의 정확성을 개선하는 데 더 많은 데이터가 도움이됩니다. 그리고 미래에 예측을해야하는 간격 (분자를 최소화하기 위해)에 데이터 수집 노력을 집중시켜야하지만 가능한 한 그 중심으로부터 관측 값을 넓게 분산 시키십시오 (분모를 최대화하기 위해).

이러한 방식으로 올바른 값을 계산 한 후 위에서 언급 한대로 적절한 분포 와 함께 사용할 수 있습니다 . t

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.