plot.lm () 해석


89

R에서 plot (lm)에 의해 생성 된 그래프를 해석하는 것에 대한 질문이 있습니다. 스케일 위치 및 레버리지 잔류 플롯을 해석하는 방법을 알려주시겠습니까? 모든 의견을 부탁드립니다. 통계, 회귀 및 계량 경제학에 대한 기본 지식을 가정합니다.


여기 좀 봐 ?
user603

6
그리고 여기 (페이지 72부터), 여기 .
COOLSerdash

답변:


139

에 명시된 바와 같이 문서 , plot.lm()6 개의 플롯을 반환 할 수 있습니다 :

[1] 적합치에 대한 잔차 플롯, [2] 적합치에 대한 sqrt (| 잔차 |)의 스케일-위치 플롯, [3] 정규 QQ 플롯, [4] Cook의 거리 대 행 레이블, [5] 레버리지에 대한 잔차 플롯, [6] 레버리지 / (1 레버리지)에 대한 쿡 거리 거리 플롯. 기본적으로 처음 3과 5가 제공됩니다. ( 내 번호 매기기 )

플롯 [1] , [2] , [3] & [5] 가 기본적으로 반환됩니다. 해석 [1] 은 여기 CV에서 논의됩니다 : 선형 모델의 가정을 검증하기위한 잔차 대 적합도 해석 . 나는 동질성 가정과 CV에서 그것을 평가하는데 도움을 줄 수있는 도표를 설명했다 : 척도 위치도 [2]를 포함하여 여기에서 : 선형 회귀 모델에서 일정한 분산을 갖는 것은 무엇을 의미 하는가? CV에서 qq-plots [3] 에 대해 논의 했습니다 : QQ 플롯은 히스토그램일치하지 않습니다 : 그리고 PP-plots vs. QQ-plots . 여기에 매우 좋은 개요가 있습니다. QQ 플롯을 해석하는 방법? 그럼, 남은 것은 주로 단지 이해이다 [5] , 잔류-활용 플롯을.

이를 이해하려면 다음 세 가지를 이해해야합니다.

  • 지레 작용, 보강 조치,
  • 표준화 된 잔차
  • 쿡의 거리.

레버리지 를 이해하려면 정규 최소 제곱 법 회귀 분석이 데이터 중심을 통과하는 선 적합 하다는 것을 인식 하십시오 . 선은 얕게 또는 가파르게 경 사진이 될 수 있지만, 그것은 같은 그 점을 중심으로 피벗합니다 레버 A의 지점 . OLS는 데이터와 선 사이의 수직 거리를 최소화하려고 노력하기 때문에 의 극단을 향하여 더 멀리 떨어져있는 데이터 점 은 레버를 더 강하게 밀거나 당깁니다 (예 : 회귀선) ); 그들은 더 많은 레버리지가 있습니다. 이 중 하나 개는 결과 (X¯, Y¯)X얻은 결과는 몇 가지 데이터 요소에 의해 결정됩니다. 이것이이 도표가 당신을 결정하는 데 도움이되는 것입니다.

에 나가 더 가리키는 사실의 또 다른 결과 (:에 근접하도록 회귀 라인이 적합 또는 더 정확하게 더 활용 그들이 회귀 선에 근접하는 경향이있는 그들 ) 근처에 점 이상 . 즉, 잔차 표준 편차는 다른 지점에서 오차 오차가 다를 수 있습니다 ( 오류 표준 편차가 일정 하더라도 ). 이를 수정하기 위해 잔차는 일정한 분산을 갖도록 표준화 되는 경우가 많습니다 (기본 데이터 생성 프로세스가 물론 동일하다고 가정). XX¯X

주어진 데이터 포인트로 인해 결과가 도출되었는지 여부를 생각하는 한 가지 방법은 해당 데이터 포인트 없이 모델이 적합 경우 데이터의 예측 된 값이 얼마나 멀리 이동하는지 계산하는 것 입니다. 이 계산 된 총 거리를 Cook 's distance 라고 합니다. 다행히 예측 된 값이 얼마나 멀리 이동하는지 알아 내기 위해 회귀 모델을 번 다시 실행할 필요가 없습니다 . Cook 's D는 각 데이터 포인트와 관련된 레버리지 및 표준화 된 잔차의 함수입니다. N

이러한 사실을 염두에두고 네 가지 상황과 관련된 도표를 고려하십시오.

  1. 모든 것이 괜찮은 데이터 셋
  2. 높은 수준이지만 표준화되지 않은 잔류 점이있는 데이터 집합
  3. 낮은 수준이지만 표준화 된 잔차 점이있는 데이터 집합
  4. 높은 수준의 표준화 된 잔류 점이있는 데이터 집합

여기에 이미지 설명을 입력하십시오 여기에 이미지 설명을 입력하십시오

왼쪽의 그림은 데이터, 데이터의 중심 에 파란색 점, 점선으로 된 기본 데이터 생성 프로세스, 파란색 선에 맞는 모델 및 빨간 점이있는 특수 지점. 오른쪽에는 해당 잔차 수준 그림이 있습니다. 특별한 점은 입니다. 모델은 레버리지가 높고 표준화 된 잔차가 큰 네 번째 경우에 주로 왜곡됩니다. 참고로 다음은 특수 포인트와 관련된 값입니다. (X¯, Y¯)21

                              leverage std.residual   cooks.d
high leverage,  low residual 0.3814234    0.0014559 0.0000007
low leverage,  high residual 0.0476191    3.4456341 0.2968102
high leverage, high residual 0.3814234   -3.8086475 4.4722437

다음은 이러한 플롯을 생성하는 데 사용한 코드입니다.

set.seed(20)

x1 = rnorm(20, mean=20, sd=3)
y1 = 5 + .5*x1 + rnorm(20)

x2 = c(x1, 30);        y2 = c(y1, 20.8)
x3 = c(x1, 19.44);     y3 = c(y1, 20.8)
x4 = c(x1, 30);        y4 = c(y1, 10)

* 도움이 OLS 회귀는 데이터와 라인 사이의 수직 거리를 최소화하는 라인을 찾기 위해 노력하는 방법을 이해하고, 여기 내 대답을 참조하십시오 Y와 X와 X와 Y에 선형 회귀의 차이점은 무엇입니까?


더 많은 것을 배우기위한 모든 글쓰기 지시를 가리키는 좋은 대답. (이 음모에 대한 완전하고 명확한 설명이 왜 부족한지 궁금합니다)
산림 생태 학자

여기 에 각 음모에 대한 간단한 통합 설명의 예가 있지만 .
theforestecologist23
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.