잔차 플롯 : 왜 플롯 대 적합치이며


20

OLS 회귀와 관련하여 나는 잔차 그림 (적합한 값 대)이 일반적으로 일정한 분산을 테스트하고 모델 사양을 평가하기 위해 본다는 것을 이해합니다. 왜 값이 아닌 적합치에 대해 잔차가 표시 됩니까? 이 두 도표와 정보가 어떻게 다릅니 까?와이

다음 잔차 그림을 생성하는 모델을 작업 중입니다.

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

따라서 플롯 대 적합치 값이 한 눈에보기에는 좋지만 값 에 대한 두 번째 플롯 에는 패턴이 있습니다. 왜 그런 뚜렷한 패턴이 잔차 대 적합도에 나타나지 않는지 궁금합니다 ....와이

와이

2


3
나는 당신의 의도를 좀 더 밀접하게 맞추기 위해 타이틀을 조정할 자유를 얻었습니다. 경제학자들 사이에서도 (당신은 하나 일 수도 있습니다) "IV"는이 경우 모호성이 없지만 도구 변수의 또 다른 의미를 갖습니다. 여러 통계 과학 전반에 걸쳐 더 나은 의사 소통을 위해, 우리 중 일부는 DV (일부 사람들은 여전히 Deo volente를 의미 함 ) 및 IV 와 같은 지역적으로 사용 된 약어를 ​​권장하지 않습니다 . 다른. 나는 이것이 귀하의 질문에 대한 세부 사항이라는 것을 알고 있지만 잘 대답했습니다.
Nick Cox

답변:


11

구성에 의해 OLS 모델의 오차 항은 X 공변량의 관측 값과 상관이 없습니다. 모형의 가정이 위반 되었기 때문에 (모형이 생략되거나 역 인과 관계가있는 문제와 같이) 모수의 실제 값을 반영하지 않는 치우친 추정치를 산출하는 경우에도 관측 된 데이터에 대해서는 항상 적용됩니다. 예측 된 값은 전적으로 이러한 공변량의 함수이므로 오류 항과 상관이 없습니다. 따라서 예측 된 값에 대해 잔차를 플로팅 할 때는 추정값 구성과 실제로 관련이 없으므로 항상 무작위로 표시되어야합니다. 대조적으로, 모델의 에러 항이 실제로 Y와 상관 될 수있는 것은 전적으로 가능합니다. 예를 들어, 이분법적인 X 변수를 사용하면 실제 Y는E(Y | X = 1)또는 E(Y | X = 0)잔차가 커질 것입니다. 다음은 R에서 시뮬레이션 된 데이터와 동일한 직관입니다. 여기서 데이터 생성 프로세스를 제어하기 때문에 모델이 편향되어 있지 않습니다.

rm(list=ls())
set.seed(21391209)

trueSd <- 10
trueA <- 5
trueB <- as.matrix(c(3,5,-1,0))
sampleSize <- 100

# create independent x-values
x1 <- rnorm(n=sampleSize, mean = 0, sd = 4)
x2 <-  rnorm(n=sampleSize, mean = 5, sd = 10)
x3 <- 3 + x1 * 4 + x2 * 2 + rnorm(n=sampleSize, mean = 0, sd = 10)
x4 <- -50 + x1 * 7 + x2 * .5 + x3 * 2  + rnorm(n=sampleSize, mean = 0, sd = 20)
X = as.matrix(cbind(x1,x2,x3,x4))


# create dependent values according to a + bx + N(0,sd)
Y <-  trueA +  X %*%  trueB  +rnorm(n=sampleSize,mean=0,sd=trueSd)


df = as.data.frame(cbind(Y,X))
colnames(df) <- c("y", "x1", "x2", "x3", "x4")
ols = lm(y~x1+x2+x3+x4, data = df)
y_hat = predict(ols, df)
error = Y - y_hat
cor(y_hat, error) #Zero
cor(Y, error) #Not Zero

우리는 예를 들어 생략 된 모델과의 상관 관계가 0 인 것과 동일한 결과를 얻습니다. x1.

ols2 = lm(y~x2+x3+x4, data = df)
y_hat2 = predict(ols2, df)
error2 = Y - y_hat2
cor(y_hat2, error2) #Still zero
cor(Y, error2) #Not Zero

2
도움이되었지만 첫 번째 문장은 명확성을 위해 다시 작성할 수 있습니다. "건설"은 잔차를 생성합니다. 오차항은 계산 이전에 존재하는 것으로 간주됩니다. 마찬가지로 추정값이 아닌 추정값이라고 말하고 싶습니다.이 추정값은 추정값을 구성하는 데 사용되는 방법입니다.
Nick Cox

그렇다면 왜 잔차 차트 (vs fit)를보아야합니까? 그 음모에는 어떤 진단 목적이 있습니까? 나는 사이트를 처음 사용합니다. Michael에게 태그를 지정해야합니까, 아니면이 주석을 자동으로 받습니까? 내 의견은 아래의 @Glen_b 답변에도 적용됩니다. 두 대답 모두 내 이해에 도움이됩니다. 감사.
Mac

... 다른 구조를 드러 낼 수 있기 때문입니다. 잔차와 적합 간의 상관 관계가 없다고해서 다른 일도 일어날 수 없다는 의미는 아닙니다. 모델이 완벽하다고 생각하면 가능하다고 생각하지 않을 것입니다 ... 실제로 다른 종류의 구조를 확인해야합니다.
Nick Cox

@Mac, 저는 솔직하게 말해서이 음모를 보지 않는다고 말합니다. 인과 관계를 추론하려는 경우 생략 된 가변 문제와 인과 관계 문제를 개념적으로 고려하여 생각해야합니다. 어느 쪽이든 문제가 발생할 수 있으며 관찰 등가의 문제이기 때문에이 그림에서 볼 수 없습니다. 관심이있는 모든 것이 예측이라면 모형의 예측이 표본 외의 성능을 얼마나 잘 수행 하는지를 생각하고 테스트해야합니다 (그렇지 않으면 예측이 아님).
Michael

@NickCox 예, 모수의 실제 값이 아니라 모형에 의해 추정 된 오차 항을 의미합니다.
Michael

20

내가 말한 것에 만족한다고 생각하는 두 가지 사실 :

와이나는=와이^나는+이자형^나는

코브(와이^나는,이자형^나는)=0

그때:

코브(와이나는,이자형^나는)=코브(와이^나는+이자형^나는,이자형^나는)

=코브(와이^나는,이자형^나는)+코브(이자형^나는,이자형^나는)

=0+σ이자형2

=σ이자형2

따라서 적합치 잔차와 상관 관계가 없지만 관측 값 입니다.

실제로 이는 관측치와 잔차가 모두 오차 항과 관련되어 있기 때문입니다.

일반적으로 진단 목적으로 잔차 그림을 사용하기가 다소 어렵습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.