선형 회귀 모형의 신뢰 및 예측 구간


9

자, 선형 회귀를 이해하려고합니다. 데이터 세트가 있는데 모두 괜찮아 보이지만 혼란스러워합니다. 이것은 내 선형 모델 요약입니다.

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.2068621  0.0247002   8.375 4.13e-09 ***
temp        0.0031074  0.0004779   6.502 4.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 
F-statistic: 42.28 on 1 and 28 DF,  p-value: 4.789e-07 

따라서 p- 값은 실제로 낮아서 우연히 x와 y 사이의 상관 관계를 얻을 가능성이 거의 없습니다. 나는 그것을 그릴 후는 다음과 같습니다 회귀 라인을 그릴 경우 http://s14.directupload.net/images/120923/l83eellv.png을 (그림으로 그것을했지만 나는 - 새 사용자로 - 현재 사용하지 않는 게시 가능) 파란색 선 = 신뢰 구간 녹색 선 = 예측 구간

자, 많은 점들이 신뢰 구간에 빠지지 않습니다. 왜 그런 일이 일어날까요? 나는 데이터 포인트 중 어느 것도 회귀 라인 b / c에 떨어지지 않는다고 생각합니다. 그들은 서로 아주 멀리 떨어져 있지만 확실하지 않습니다. 그들은 여전히 ​​회귀선 주위에 있으며 패턴을 완전히 볼 수 있습니다. 그러나 이것으로 충분합니까? 나는 그것을 알아 내려고 노력하고 있지만, 나는 계속해서 같은 질문을 반복해서 나 자신에게 묻는다.

내가 지금까지 생각한 것 : 신뢰 구간은 CI의 반복 계산을 계속하면 95 %가 실제 평균이 CI에 해당한다고 말합니다. 그래서 : dp가 실제로 수단이 아니기 때문에 dp에 빠지지 않는 것은 문제가되지 않습니다. 반면 예측 구간은 PI의 반복 계산을 반복하면 실제 VALUE가 구간에 속하는 횟수의 95 %에 해당한다고 말합니다. 그래서 그 점을 가지고 있어야합니다 (내가 가지고있는). 그런 다음 PI는 항상 CI보다 넓은 범위를 가져야한다는 것을 읽었습니다. 왜 그런 겁니까? 이것이 내가 한 일입니다.

conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))

그런 다음 다음과 같이 표시했습니다.

matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")

이제 추가 데이터에 대해 CI와 PI를 계산하면 범위를 얼마나 넓게 선택하더라도 위와 동일한 줄을 얻습니다. 내가 이해할 수없는. 그게 무슨 뜻이야? 그러면 다음과 같습니다.

conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))

새로운 x의 경우 다른 시퀀스를 선택했습니다. 시퀀스에 내 회귀 변수와 다른 관측치 수가있는 경우 경고가 표시됩니다. 왜 그런가요?

답변:


3

귀하의 질문 중 일부는 이해하지만 다른 내용은 명확하지 않습니다. 몇 가지 사실에 대답하고 진술하겠습니다. 어쩌면 모든 혼란이 사라질 것입니다.

당신이 가진 착용감은 놀랍도록 좋습니다. 신뢰 구간은 매우 빡빡해야합니다. 고려할 수있는 두 가지 유형의 신뢰 영역이 있습니다. bsimultanoues 영역은 주어진 신뢰 수준으로 전체 실제 회귀 함수를 다루기위한 것입니다.

당신이보고있는 다른 것들은 적합 회귀 포인트에 대한 신뢰 구간입니다. 공변량의 주어진 값에서 y의 적합 값 만 포함합니다. 공변량의 다른 값에서 y 값을 포함하지는 않습니다. 실제로 구간이 사용자의 경우와 같이 매우 빡빡하면 공변량의 고정 값에서 벗어날 때 데이터 포인트가있는 경우 많은 구간을 다루지 않습니다. 이러한 유형의 적용 범위에 대해서는 동시 신뢰 곡선 (상한 및 하한 곡선)을 가져와야합니다.

이제 공변량의 주어진 값에서 ay를 예측하고 공변량의 주어진 값에서 y에 대한 신뢰 구간에 사용한 것과 동일한 예측 구간에 대한 신뢰 수준을 원하면 구간이 더 넓다는 것이 사실입니다. 그 이유는 새로운 y에 구간에서 설명해야하는 자체 오류가 있기 때문에 모델에 가변성이 추가 될 것임을 알려주기 때문입니다. 해당 오차 성분은 적합치에 사용 된 데이터를 기반으로 추정치에 입력되지 않습니다.


죄송합니다. 아직 이해가되지 않습니다. 두 가지 유형의 신뢰 구간을 설명했지만 "내가보고있는 것"이라고 말할 때 어떤 것을 의미합니까? b / c 예측과 신뢰 구간을 모두 작성했으며 차이를 이해하는 데 문제가 있습니다. 또한, 내가하고있는 일을 명확히하기 위해 이전 게시물에 몇 가지 R- 명령을 추가했습니다
lisa

곡선은 동시 신뢰 곡선을 구성하여 신뢰 구간을 얻었는지 여부를 명확하게 나타내지 않거나 단순히 개별 신뢰 구간을 부드럽게 연결합니다. 그것들이 동시에 있다면, 곡선 바깥에 너무 많은 적합 점이 보이지 않을 것입니다. 그러나 내가 지적했듯이 개별 간격으로 발생할 수 있습니다. 아직 R 코드가 포함 된 편집 내용을 보지 않았습니다.
Michael R. Chernick

나는 R에 관한 질문에 대답 할만큼 R을 잘 모른다. R 전문가가 당신에게 말할 수있는 것은 신뢰 곡선과 예측 곡선이 개별 신뢰 구간을 연결하는지 또는 동시 곡선을 생성하는지 여부입니다. 또한 코드가 의도 한대로 작동합니까?
Michael R. Chernick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.