선형 모형에서 예측 한계에 대한 공식 얻기 (예 : 예측 간격)


18

다음 예제를 보자.

set.seed(342)
x1 <- runif(100)
x2 <- runif(100)
y <- x1+x2 + 2*x1*x2 + rnorm(100)
fit <- lm(y~x1*x2)

이것은 OLS 회귀를 사용하여 x1 및 x2를 기준으로 y의 모형을 만듭니다. 주어진 x_vec에 대해 y를 예측하려면 간단히에서 얻은 공식을 사용할 수 있습니다 summary(fit).

그러나 y의 하한 예측과 상한 예측을 예측하려면 어떻게해야합니까? (주어진 신뢰 수준).

그러면 어떻게 수식을 만들까요?


이 페이지새로운 관찰에 대한 신뢰 구간 도움 될 수 있습니다.
GaBorgulya

@Tal 죄송합니다. "y의 하한 및 상한 예측"이라는 말의 의미가 실제로 명확하지 않습니다. 예측 또는 허용 오차 대역과 관련이 있습니까?
chl

@Tal-몇 가지 쿼리. "x.1과 x2에 기초하여 OLS 회귀를 사용하여 y를 말할 때" 즉, 선형 모델을 만들고 OLS를 사용하여 모수를 추정 한다는 의미 입니다. 내가 맞아? 그리고 @chl의 질문-예측 간격의 하한과 상한을 예측하고 싶습니까?
suncoolsu

@chl, 더 명확하지 않아서 죄송합니다. 나는 시간의 95 %의 "실제"값을 "잡을"간격을 줄 두 가지 공식을 찾고 있습니다. CI에 대한 정의를 평균으로 사용하고 있다고 생각합니다. 다른 용어가 필요할 때 미안합니다.
Tal Galili

@suncoolsu-그렇습니다.
탈 Galili

답변:


25

행렬 산술이 필요합니다. Excel이 어떻게 진행되는지 잘 모르겠습니다. 어쨌든 여기에 세부 사항이 있습니다.

회귀가 로 작성되었다고 가정하십시오 .와이=엑스β+이자형

하자 (동일한 형식의 예측을위한 예측 값을 포함하는 행 벡터 일 수 X ). 그 후 예측이 주어진다 Y = X * β = X * ( X ' X ) - 1 X ' Y 와 연관된 분산 σ 2 [ 1 + X * ( X ' X ) - 1 ( X * ) ' ] .엑스엑스

와이^=엑스β^=엑스(엑스'엑스)1엑스'와이
σ2[1+엑스(엑스'엑스)1(엑스)'].
이어서 95 %의 예측 간격으로 (정규 분포의 오차를 가정) 계산 될 수있다 Y ± 1.96 σ 이는 오차 항e로 인한불확실성과 계수 추정치의 불확실성을 고려합니다. 그러나 X ∗의오류는 무시합니다. 따라서 예측 변수의 미래 값이 확실하지 않으면이 식을 사용하여 계산 된 예측 간격이 너무 좁아집니다.
와이^±1.96σ^1+엑스(엑스'엑스)1(엑스)'.
이자형엑스

1
+1, 훌륭한 답변. 그러나 회귀 모델은 항상 조건부 기대 값을 추정하므로 회귀 변수만큼 좋습니다. 따라서 마지막 주석은 매우 좋지만 회귀 모델을 작성하면 회귀자를 신뢰해야하기 때문에 꼭 필요한 것은 아닙니다.
mpiktas

y^=Xβ+X(XX)1Xevary^=varX(XX)1Xe=σ2X(XX)1(X)

y^

N×N

X

7

다른 유형의 예측 간격 후에 우연히 발생합니까? predict.lm매뉴얼 페이지가

 ## S3 method for class 'lm'
 predict(object, newdata, se.fit = FALSE, scale = NULL, df = Inf, 
         interval = c("none", "confidence", "prediction"),
         level = 0.95, type = c("response", "terms"),
         terms = NULL, na.action = na.pass,
         pred.var = res.var/weights, weights = 1, ...)

'간격'을 설정하면 지정된 '수준'에서 신뢰 또는 예측 (허용) 간격의 계산을 지정하며 때로는 좁은 간격과 넓은 간격이라고도합니다.

그게 당신이 생각한 것입니까?


안녕 Dirk, 그것은 실제로 내가 찾고 싶은 것이지만, 나는 위와 아래의 결합이 공식 의 형태가되기를 원합니다 (따라서 나중에 낮은 형태의 통계 소프트웨어, 예를 들어 Excel ...로 구현하기 위해)
Tal Galili

추신 : 이제 내 질문의 제목을 편집하여 predict.lm interval 매개 변수에 대해 묻고 있다고 생각했을 수도 있습니다 :)
Tal Galili

8
여기서 용어를 남용하고 있습니다. Excel은 통계 소프트웨어가 아닙니다.
Dirk Eddelbuettel

1
당신은 맞습니다, 내 입찰, "스프레드 시트 응용 프로그램"은 어떻습니까?
탈 Galili

3
나는 그걸로 살 수 있습니다. 그것은 그것의 이름으로 악마를 부른다 ;-)
Dirk Eddelbuettel

6

@Tal : Kutner 등 을 선형 모델을위한 멋진 소스로 제안 할 수 있습니다.

E(Y|Xvec)

E(Y|Xvec)Y^ ±αY^Y^Y^σ2nXvecX¯)2σ2(XiX¯)2


1
구별하기위한 (+1). 그러나 OP가 (2)가 아닌 (1)을 요구한다고 생각합니다 (그리고 질문의 제목을 적절하게 편집했습니다). 또한 공식은 회귀가 하나의 변수에만 의존한다고 가정합니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.