선형 모형의 가정을 검증하기위한 잔차 대 적합치 그림 해석


34

R을 사용한 Faraway의 선형 모형 (2005, p. 59)에서 다음 그림을 고려하십시오.

여기에 이미지 설명을 입력하십시오

첫 번째 그림은 잔차와 적합치 값이 정규 분포 오차를 갖는 정사각형 선형 모형이어야하므로 잔차와 적합치가 서로 관련이 없음을 나타냅니다. 따라서 잔차와 적합치 간의 종속성을 나타내는 두 번째 및 세 번째 그림은 다른 모형을 제안합니다.

그러나 왜 Faraway가이 분산 선형 모델을 제시하는 반면 두 번째 플롯은 비선형 모델을 제안합니까?

두 번째 도표는 잔차의 절대 값이 적합치와 강하게 양의 상관 관계를 나타내는 것으로 보이지만, 세 번째 도표에서는 그러한 경향이 분명하지 않습니다. 이론적으로 말하자면,이 분산 선형 모델에서 정규 분포 오차가있는 경우

Cor(e,y^)=[1111]

(왼쪽의 표현은 잔차와 적합치 사이의 분산-공분산 행렬입니다) 이것은 왜 두 번째 및 세 번째 플롯이 Faraway의 해석과 일치하는지 설명합니다.

그러나 이것이 사실입니까? 그렇지 않다면, 어떻게 두 번째와 세 번째 음모에 대한 Faraway의 해석이 정당화 될 수 있습니까? 또한 왜 세 번째 줄거리가 반드시 비선형 성을 나타 냅니까? 선형 일 수는 없지만 오류가 정규 분포가 아니거나 정상적으로 분포되어 있지만 0을 중심으로하지는 않습니까?


3
세 개의 도표 중 어느 것도 상관 관계를 보여주지 않습니다 (적어도 선형 상관 관계는 아닙니다. 이는 " 잔차와 적합치가 상관되지 않음 " 에서 사용되는 의미에서 '상관 관계'의 관련 의미입니다 ).
Glen_b

1
@ Glen_b : 감사합니다. "상관"을 "상관"으로 대체하여 언급 한 단락을 수정했습니다.
Evan Aad

답변:


46

x±

근사 평균을 가진 진단 플롯과에 표시된 각 값에서 확산

  • xyx

  • yx

선형 일 수는 없지만 오류가 정규 분포가 아니거나 정상적으로 분포되어 있지만 0을 중심으로하지는 않습니까?

실제로는 그렇지 않습니다. 이러한 상황에서 플롯은 세 번째 플롯과 다르게 보입니다.

θβ0+θ

(ii) 오차가 정규 분포를 따르지 않으면 점의 패턴이 중심선 이외의 다른 위치 (데이터가 왜곡 된 경우)에서 가장 밀도가 높을 수 있지만 로컬 평균 잔차는 여전히 0에 가깝습니다.

비정규 오류

여기서 자주색 선은 여전히 ​​(매우) 대략 95 % 간격을 나타내지 만 더 이상 대칭이 아닙니다. (여기서 기본 요점을 모호하게하지 않기 위해 몇 가지 문제에 대해 글을 쓰고 있습니다.)

xyx


1
y^y^x

2
x1x2x1

1
x

σ2IN(0,V)Vσ2IV
Evan Aad

1
(ctd) ... 내 대답 아래의 첫 번째 의견에서 볼 수 있듯이, 특히 "당신은 상상할 수 있습니다 ..."라는 문장의 결과로 볼 수 있습니다. 평균.
Glen_b

2

당신은 썼다

두 번째 줄거리는 잔차의 절대 값이 적합치와 강한 양의 상관 관계가 있음을 나타냅니다.

그것은 "보이는"것이 아닙니다. 이것이 바로 이분법 적 의미입니다.

그런 다음 모든 1의 행렬을 제공합니다. 상관이 존재할 수 있고 1보다 작을 수 있습니다.

그럼 당신은 작성

또한 왜 세 번째 줄거리가 반드시 비선형 성을 나타 냅니까? 선형 일 수는 없지만 오류가 정규 분포가 아니거나 정상적으로 분포되어 있지만 0을 중심으로하지는 않습니까?

그것들 0을 중심으로합니다. 이들이이 그림에서 정규 분포를 따르는 지 확인하기는 어렵지만 일반적으로 권장되는 다른 그림은 잔차의 Quantile 정규 그림이며, 정상인지 여부를 보여줍니다.


N(0,V)Vσ2I

1
Quantile 법선 플롯은 정규성을 살펴 봅니다. 첫 번째 음모의 동종 동성에 대한 증거는 시각적입니다
Peter Flom-Reinstate Monica

@PeterFlom : necropost에 대해 죄송합니다 : 각 지점에서의 오류를 고려하는 정량화에 대해 약간 혼란스러워합니다 (xi, yi) : 여러 응답 (xi, y1_1), (xi, yi_2)을 고려합니까? 입력 xi에 대한, (xi, yi_m); i = 1,2, ..., n (데이터 포인트 수)을 구한 다음 값 yi_j의 평균과 분산을 찾습니다. 선형 회귀 분석에서 y = ax + b, x, y, a (또는 다중 선형 y + a1x1 + a2x2 + ... anxn 다음 ai, xi)가 임의의 변수이며 고정 된 값이 아닌 이유에 대해서는 혼란 스럽습니다. 또한 각 예측 변수 쌍과 y에 대해 독립적 인 값을 갖는 각 쌍 (y, x_i)에 대해이 분석을 수행합니까?
gary

나는 당신이 무엇을 혼란스러워하는지 이해하지 못합니다. 각 관측치에 대해 예측 된 y 값과 실제 y 값이 있습니다. 잔차는 그들 사이의 차이입니다.
Peter Flom-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.