일 변량 회귀 분석을 사용할 때 종속 변수와 관련하여 잔차 그림을 연구하는 것이 합리적인지 알고 싶습니다. 의미가있는 경우 잔차 (y 축)와 종속 변수 (x 축)의 추정값 사이에 강력하고 선형이며 증가하는 상관 관계는 무엇을 의미합니까?
일 변량 회귀 분석을 사용할 때 종속 변수와 관련하여 잔차 그림을 연구하는 것이 합리적인지 알고 싶습니다. 의미가있는 경우 잔차 (y 축)와 종속 변수 (x 축)의 추정값 사이에 강력하고 선형이며 증가하는 상관 관계는 무엇을 의미합니까?
답변:
회귀 가 있다고 가정합니다 . 여기서 입니다. 그런 다음 입니다. 값 이 높을수록 잔차가 커집니다. 반대로 에 대한 잔차 그림은 체계적인 관계를 나타내지 않아야합니다. 또한 예측 값 는 대략 이어야합니다 ( 모든 관측치에 대해 동일). 모든 예측 값이 대략 동일하면 오류와 상관이 없어야합니다.
줄거리가 나에게 말한 것은 와 는 본질적으로 관련이 없다는 것입니다 (물론 이것을 보여주는 더 좋은 방법이 있습니다). 계수 이 (가) 0에 가까우 면 알려주십시오 .
더 나은 진단으로, 예상 임금 또는 값 에 대한 잔차 그림을 사용하십시오 . 이 도표에서 구별 가능한 패턴을 관찰해서는 안됩니다.
약간의 R 데모를 원한다면 여기로 가십시오.
y <- rnorm(100, 0, 5)
x <- rnorm(100, 0, 2)
res <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)
추정 모델이 올바르게 지정되었다고 가정하면 ...
하자 나타내고 , 매트릭스 , 투영 매트릭스 그래서 및 .
.
따라서 예측 된 종속 변수에 대한 잔차의 산점도는 상관 관계가 없어야합니다.
그러나!
.
행렬 는 프로젝션 행렬이며 고유 값은 0 또는 +1이며 양의 반값입니다. 따라서 대각선에 음이 아닌 값을 가져야합니다. 따라서 원래 종속 변수에 대한 잔차의 산점도는 양의 상관 관계를 보여야합니다.
내가 아는 한 Gretl은 기본적으로 원래 종속 변수 (예상 변수가 아님)에 대한 잔차 그래프를 생성합니다.
적합 / 예측 값과 실제 값을 혼동 할 수 있습니까?
@gung과 @biostat가 말했듯이 적합치와 잔차 사이에는 아무런 관계가 없기를 바랍니다. 반면, 종속 / 결과 변수의 실제 값과 잔차 간의 선형 관계를 찾는 것이 예상되어야하며 특히 유익하지는 않습니다.
이전 문장을 명확하게하기 위해 추가됨 : 잔차와 실제 값의 선형 관계 만이 예상 될 것입니다 ... Y의 낮은 측정 값의 경우 유용한 모델에서 Y의 예측 된 값이 실제 측정 값 및 그 반대.
제공된 답변은 여기서 무슨 일이 일어나고 있는지에 대한 아이디어를 제공합니다. 우연히 실수했을 수도 있다고 생각합니다. 다음 이야기가 의미가 있는지 확인하십시오. 시작하려면 데이터에서 X와 Y 사이에 강한 관계가 있다고 생각합니다 (여기에는 코드와 그림이 있습니다).
set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")
그러나 실수로 Y는 단지 평균에서 예측되었습니다. 이 결과를 종합하면 평균치 모형의 잔차는 적합치 (코드 및 플롯)에 대해 플롯을 의도했지만 X에 대해 플롯됩니다.
meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red",
main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")
적절한 모델을 피팅하고 그 잔차를 코드화하여이를 해결할 수 있습니다 (코드 및 플롯).
appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))
이것은 내가 시작할 때 만든 종류의 바보 같은 것 같습니다.