종속 변수와 관련하여 잔차 그림을 연구하는 것이 이치에 맞습니까?


11

일 변량 회귀 분석을 사용할 때 종속 변수와 관련하여 잔차 그림을 연구하는 것이 합리적인지 알고 싶습니다. 의미가있는 경우 잔차 (y 축)와 종속 변수 (x 축)의 추정값 사이에 강력하고 선형이며 증가하는 상관 관계는 무엇을 의미합니까?

여기에 이미지 설명을 입력하십시오


3
"강하고 선형 적이며 증가하는 상관 관계"가 무엇을 의미하는지 잘 모르겠습니다. 줄거리를 보여줄 수 있습니까? 적합치에 대한 잔차를 그리는 것이 완벽하게 합리적입니다. 일반적으로, 중심을 통과하는 평평한 수평선 인 관계가 없어야합니다. 또한 잔차의 수직 분산이 플롯의 왼쪽에서 오른쪽으로 일정 해지기를 원합니다.
gung-모니 티 복원

안녕. 답변 주셔서 감사합니다. 이것은 음모입니다 : img100.imageshack.us/img100/7414/bwages.png
루이지

그것은 당황하다. 회귀 모델을 실행 한 다음 잔차 대 적합치 값을 플로팅했습니다. 이것이 맞습니까? 그렇게 보이지 않아야합니다. 질문을 편집하고 모델 및 플롯에 사용한 코드를 붙여 넣을 수 있습니까?
gung-모니 티 복원

당신은 올바르게 이해했습니다. 미안하지만 코드를 검색하는 방법을 모르고 회귀를 실행하고 Gretl 프로그램으로 잔차를 플로팅했습니다.
Luigi

2
처음에 아래에 답변을 쓸 때 @ mark999의 의견을 보지 못했습니다. 나는 그의 의심이 정확하다고 생각합니다. 이것은 잔차 대 y 값입니다. 루이지, 그래프를 다시 작성하십시오-변수가 무엇인지 잘못 알고있을 때 그래프를 해석하지 마십시오.
Michael Bishop

답변:


12

회귀 가 있다고 가정합니다 . 여기서 입니다. 그런 다음 입니다. 값 이 높을수록 잔차가 커집니다. 반대로 에 대한 잔차 그림은 체계적인 관계를 나타내지 않아야합니다. 또한 예측 값 는 대략 이어야합니다 ( 모든 관측치에 대해 동일). 모든 예측 값이 대략 동일하면 오류와 상관이 없어야합니다.yi=β0+β1xi+ϵiβ10yiβ0ϵiyxy^iβ^0

줄거리가 나에게 말한 것은 와 는 본질적으로 관련이 없다는 것입니다 (물론 이것을 보여주는 더 좋은 방법이 있습니다). 계수 이 (가) 0에 가까우 면 알려주십시오 .xyβ^1

더 나은 진단으로, 예상 임금 또는 값 에 대한 잔차 그림을 사용하십시오 . 이 도표에서 구별 가능한 패턴을 관찰해서는 안됩니다.x

약간의 R 데모를 원한다면 여기로 가십시오.

y      <- rnorm(100, 0, 5)
x      <- rnorm(100, 0, 2)
res    <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)

이것은 때문에 모델에 다항식 항과 같은 더 많은 설명 변수가 필요할 수 있음을 의미하지는 않습니다 . β1=0
Biostat

5

추정 모델이 올바르게 지정되었다고 가정하면 ...

하자 나타내고 , 매트릭스 , 투영 매트릭스 그래서 및 .PX=X(XX)1XPXPX2=PXPX=PX

Cov(Y^,e^)=Cov(PXY,(IPX)Y)=PXCov(Y,Y)(IPX)=σ2PX(IPX)=0 .

따라서 예측 된 종속 변수에 대한 잔차의 산점도는 상관 관계가 없어야합니다.

그러나!

Cov(Y,e^)=Cov(Y,(IPX)Y)=Cov(Y,Y)(IPX)=σ2(IPX) .

행렬 는 프로젝션 행렬이며 고유 값은 0 또는 +1이며 양의 반값입니다. 따라서 대각선에 음이 아닌 값을 가져야합니다. 따라서 원래 종속 변수에 대한 잔차의 산점도는 양의 상관 관계를 보여야합니다.σ2(IPX)

내가 아는 한 Gretl은 기본적으로 원래 종속 변수 (예상 변수가 아님)에 대한 잔차 그래프를 생성합니다.


다른 가능성에 감사드립니다. 여기에서 Gretl에 대한 지식이 도움이됩니다. 그러나 이것이 실제 답변이라는 것이 얼마나 그럴듯한 지 궁금합니다. 시뮬레이션 데이터를 사용하여 잔차와 원래 dv를 상관시키고 플로팅했습니다. r = .22이고 줄거리는 질문 줄거리가 아니라 제 3 줄거리와 매우 비슷합니다. 물론, 나는이 데이터를 조사하여 내 이야기의 타당성을 확인했습니다.
복원

@gung 시뮬레이션 데이터를 사용했다는 것은 무엇을 의미합니까?
Michael Bishop

@MichaelBishop 내 대답을 보면 데이터를 시뮬레이트하여 게시 된 줄거리처럼 보이는지 확인하기 위해 데이터를 시뮬레이션했음을 알 수 있습니다. 내 코드와 줄거리가 제시됩니다. 씨앗을 지정
했으므로

4

적합 / 예측 값과 실제 값을 혼동 할 수 있습니까?

@gung과 @biostat가 말했듯이 적합치와 잔차 사이에는 아무런 관계가 없기를 바랍니다. 반면, 종속 / 결과 변수의 실제 값과 잔차 간의 선형 관계를 찾는 것이 예상되어야하며 특히 유익하지는 않습니다.

이전 문장을 명확하게하기 위해 추가됨 : 잔차와 실제 값의 선형 관계 만이 예상 될 것입니다 ... Y의 낮은 측정 값의 경우 유용한 모델에서 Y의 예측 된 값이 실제 측정 값 및 그 반대.


당신이 말하는 것의 의미는, 값이 Y의 낮은 값에서 일관되게 과소 예측되고, 높은 Y의 값에서 일관되게 과대 예측된다면, 괜찮습니다. 그게 문제 야?
rolando2

@ rolando2, 나는 아마도 내 대답을 분명히해야한다고 암시 한 말을 암시하지 않았습니다. 당신이 말했듯이, 낮은 Y 값에서 일관되게 과소 예측하고 높은 값의 Y에서 과대 예측하는 것은 매우 나쁜 모델의 징조가 될 것입니다. 나는 낮은 Y 값을 과대 예측하고 높은 Y 값을 과소 예측하는 반대의 경우를 상상했습니다.이 현상은 일반적이며 설명 할 수있는 종속 변수의 분산 정도에 비례하여 예상됩니다. Y를 예측하는 변수가 없기 때문에 항상 평균을 예측으로 사용한다고 상상해보십시오
Michael Bishop

1
당신이 말한 것은 한 가지만 빼고 말이됩니다. 루이지가 보여준 것만 큼 강한 트렌드가 트렌드가 왼쪽에서 오른쪽 아래로가더라도 소리 나 바람직한 해결책으로 나타날 것이라고 상상하기가 어렵습니다.
rolando2

1
@ rolando2, 잔차는 일반적으로 관측 된 것으로 정의되므로, 음의 잔차는 과대 예측입니다. 설명력이 거의없는 올바르게 지정된 모델에서-나는 사회 과학자이므로 이것을 항상 봅니다-잔차와 관측 된 결과 값 사이에 강한 긍정적 관계가있을 것입니다. 이것이 잔차 대 실제 그림 인 경우 왼쪽 상단에서 오른쪽 하단으로가는 추세는 처음에 걱정했던 잘못 잘못 지정된 모델의 신호일 것입니다.
마이클 비숍

알았어 내 잘못이야 마이클 비숍 (Michael Bishop)과 로아 (Roah)가 쓴 것처럼, 그레 틀 (Gretl) 은 예측 된 것이 아니라 관측 된 y에 대한 잔차를 그린다 . 이 모든 혼란에 대해 유감스럽게 생각합니다.이 답변을 모두 기대하지는 않았습니다. 나는 초보자이고이 오류를 만들었으므로 "용서"할 수 있기를 바랍니다. 어쨌든, 이것이 더 많은 설명 변수를 사용해야했음을 나타냅니다. 모두 감사합니다!
루이지

3

제공된 답변은 여기서 무슨 일이 일어나고 있는지에 대한 아이디어를 제공합니다. 우연히 실수했을 수도 있다고 생각합니다. 다음 이야기가 의미가 있는지 확인하십시오. 시작하려면 데이터에서 X와 Y 사이에 강한 관계가 있다고 생각합니다 (여기에는 코드와 그림이 있습니다).

set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")

여기에 이미지 설명을 입력하십시오

그러나 실수로 Y는 단지 평균에서 예측되었습니다. 이 결과를 종합하면 평균치 모형의 잔차는 적합치 (코드 및 플롯)에 대해 플롯을 의도했지만 X에 대해 플롯됩니다.

meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red", 
    main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")

여기에 이미지 설명을 입력하십시오

적절한 모델을 피팅하고 그 잔차를 코드화하여이를 해결할 수 있습니다 (코드 및 플롯).

appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))

여기에 이미지 설명을 입력하십시오

이것은 내가 시작할 때 만든 종류의 바보 같은 것 같습니다.


0

이 그래프는 적합치 않은 모델을 나타냅니다. @ gung이 주요 질문에 대한 첫 번째 의견에서 말한 것처럼 예측 된 응답과 잔류 사이에는 관계가 없어야합니다.

"애널리스트는 임의의 방식으로 응답을 예측 ERR로 회귀 모델을 기대한다 모델이 실제보다 높은 값을 예측하고 동일한 확률로 실제보다 낮게해야 참조하십시오. "

첫 번째 플롯 응답 대 독립 변수를 사용하여 두 관계를 확인하는 것이 좋습니다. 모형에 다항식 항을 추가하는 것이 합리적 일 수 있습니다.


0

X와 Y 변수 사이에 관계가 없으면 어떻게 되나요? 이 그래프를 보면, 당신이 본질적으로 Y를 예측하는 것으로 보입니다.


0

OP는 잔차 대 원래 반응 변수 (모델의 적합 반응 변수가 아님)를 플로팅했다고 생각합니다. 나는 거의 같은 정확한 패턴으로 항상 이와 같은 음모를 봅니다. 잔차 대 원래 Y에서 어떤 의미있는 추론을 수집 할 수 있는지 확실하지 않으므로 잔차 대 적합치 값을 플롯해야합니다. 그러나 확실히 틀릴 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.