자, 선형 회귀를 이해하려고합니다. 데이터 세트가 있는데 모두 괜찮아 보이지만 혼란스러워합니다. 이것은 내 선형 모델 요약입니다.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2068621 0.0247002 8.375 4.13e-09 ***
temp 0.0031074 0.0004779 6.502 4.79e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874
F-statistic: 42.28 on 1 and 28 DF, p-value: 4.789e-07
따라서 p- 값은 실제로 낮아서 우연히 x와 y 사이의 상관 관계를 얻을 가능성이 거의 없습니다. 나는 그것을 그릴 후는 다음과 같습니다 회귀 라인을 그릴 경우 http://s14.directupload.net/images/120923/l83eellv.png을 (그림으로 그것을했지만 나는 - 새 사용자로 - 현재 사용하지 않는 게시 가능) 파란색 선 = 신뢰 구간 녹색 선 = 예측 구간
자, 많은 점들이 신뢰 구간에 빠지지 않습니다. 왜 그런 일이 일어날까요? 나는 데이터 포인트 중 어느 것도 회귀 라인 b / c에 떨어지지 않는다고 생각합니다. 그들은 서로 아주 멀리 떨어져 있지만 확실하지 않습니다. 그들은 여전히 회귀선 주위에 있으며 패턴을 완전히 볼 수 있습니다. 그러나 이것으로 충분합니까? 나는 그것을 알아 내려고 노력하고 있지만, 나는 계속해서 같은 질문을 반복해서 나 자신에게 묻는다.
내가 지금까지 생각한 것 : 신뢰 구간은 CI의 반복 계산을 계속하면 95 %가 실제 평균이 CI에 해당한다고 말합니다. 그래서 : dp가 실제로 수단이 아니기 때문에 dp에 빠지지 않는 것은 문제가되지 않습니다. 반면 예측 구간은 PI의 반복 계산을 반복하면 실제 VALUE가 구간에 속하는 횟수의 95 %에 해당한다고 말합니다. 그래서 그 점을 가지고 있어야합니다 (내가 가지고있는). 그런 다음 PI는 항상 CI보다 넓은 범위를 가져야한다는 것을 읽었습니다. 왜 그런 겁니까? 이것이 내가 한 일입니다.
conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))
그런 다음 다음과 같이 표시했습니다.
matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")
이제 추가 데이터에 대해 CI와 PI를 계산하면 범위를 얼마나 넓게 선택하더라도 위와 동일한 줄을 얻습니다. 내가 이해할 수없는. 그게 무슨 뜻이야? 그러면 다음과 같습니다.
conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))
새로운 x의 경우 다른 시퀀스를 선택했습니다. 시퀀스에 내 회귀 변수와 다른 관측치 수가있는 경우 경고가 표시됩니다. 왜 그런가요?