R에서 plot (lm)에 의해 생성 된 그래프를 해석하는 것에 대한 질문이 있습니다. 스케일 위치 및 레버리지 잔류 플롯을 해석하는 방법을 알려주시겠습니까? 모든 의견을 부탁드립니다. 통계, 회귀 및 계량 경제학에 대한 기본 지식을 가정합니다.
R에서 plot (lm)에 의해 생성 된 그래프를 해석하는 것에 대한 질문이 있습니다. 스케일 위치 및 레버리지 잔류 플롯을 해석하는 방법을 알려주시겠습니까? 모든 의견을 부탁드립니다. 통계, 회귀 및 계량 경제학에 대한 기본 지식을 가정합니다.
답변:
에 명시된 바와 같이 문서 , plot.lm()
6 개의 플롯을 반환 할 수 있습니다 :
[1] 적합치에 대한 잔차 플롯, [2] 적합치에 대한 sqrt (| 잔차 |)의 스케일-위치 플롯, [3] 정규 QQ 플롯, [4] Cook의 거리 대 행 레이블, [5] 레버리지에 대한 잔차 플롯, [6] 레버리지 / (1 레버리지)에 대한 쿡 거리 거리 플롯. 기본적으로 처음 3과 5가 제공됩니다. ( 내 번호 매기기 )
플롯 [1] , [2] , [3] & [5] 가 기본적으로 반환됩니다. 해석 [1] 은 여기 CV에서 논의됩니다 : 선형 모델의 가정을 검증하기위한 잔차 대 적합도 해석 . 나는 동질성 가정과 CV에서 그것을 평가하는데 도움을 줄 수있는 도표를 설명했다 : 척도 위치도 [2]를 포함하여 여기에서 : 선형 회귀 모델에서 일정한 분산을 갖는 것은 무엇을 의미 하는가? CV에서 qq-plots [3] 에 대해 논의 했습니다 : QQ 플롯은 히스토그램 과 일치하지 않습니다 : 그리고 PP-plots vs. QQ-plots . 여기에 매우 좋은 개요가 있습니다. QQ 플롯을 해석하는 방법? 그럼, 남은 것은 주로 단지 이해이다 [5] , 잔류-활용 플롯을.
이를 이해하려면 다음 세 가지를 이해해야합니다.
레버리지 를 이해하려면 정규 최소 제곱 법 회귀 분석이 데이터 중심을 통과하는 선 적합 하다는 것을 인식 하십시오 . 선은 얕게 또는 가파르게 경 사진이 될 수 있지만, 그것은 같은 그 점을 중심으로 피벗합니다 레버 A의 지점 . OLS는 데이터와 선 사이의 수직 거리를 최소화하려고 노력하기 때문에 의 극단을 향하여 더 멀리 떨어져있는 데이터 점 은 레버를 더 강하게 밀거나 당깁니다 (예 : 회귀선) ); 그들은 더 많은 레버리지가 있습니다. 이 중 하나 개는 결과 수얻은 결과는 몇 가지 데이터 요소에 의해 결정됩니다. 이것이이 도표가 당신을 결정하는 데 도움이되는 것입니다.
에 나가 더 가리키는 사실의 또 다른 결과 (:에 근접하도록 회귀 라인이 적합 또는 더 정확하게 더 활용 그들이 회귀 선에 근접하는 경향이있는 그들 ) 근처에 점 이상 . 즉, 잔차 표준 편차는 다른 지점에서 오차 오차가 다를 수 있습니다 ( 오류 표준 편차가 일정 하더라도 ). 이를 수정하기 위해 잔차는 일정한 분산을 갖도록 표준화 되는 경우가 많습니다 (기본 데이터 생성 프로세스가 물론 동일하다고 가정).
주어진 데이터 포인트로 인해 결과가 도출되었는지 여부를 생각하는 한 가지 방법은 해당 데이터 포인트 없이 모델이 적합 할 경우 데이터의 예측 된 값이 얼마나 멀리 이동하는지 계산하는 것 입니다. 이 계산 된 총 거리를 Cook 's distance 라고 합니다. 다행히 예측 된 값이 얼마나 멀리 이동하는지 알아 내기 위해 회귀 모델을 번 다시 실행할 필요가 없습니다 . Cook 's D는 각 데이터 포인트와 관련된 레버리지 및 표준화 된 잔차의 함수입니다.
이러한 사실을 염두에두고 네 가지 상황과 관련된 도표를 고려하십시오.
왼쪽의 그림은 데이터, 데이터의 중심 에 파란색 점, 점선으로 된 기본 데이터 생성 프로세스, 파란색 선에 맞는 모델 및 빨간 점이있는 특수 지점. 오른쪽에는 해당 잔차 수준 그림이 있습니다. 특별한 점은 입니다. 모델은 레버리지가 높고 표준화 된 잔차가 큰 네 번째 경우에 주로 왜곡됩니다. 참고로 다음은 특수 포인트와 관련된 값입니다. 21
leverage std.residual cooks.d
high leverage, low residual 0.3814234 0.0014559 0.0000007
low leverage, high residual 0.0476191 3.4456341 0.2968102
high leverage, high residual 0.3814234 -3.8086475 4.4722437
다음은 이러한 플롯을 생성하는 데 사용한 코드입니다.
set.seed(20)
x1 = rnorm(20, mean=20, sd=3)
y1 = 5 + .5*x1 + rnorm(20)
x2 = c(x1, 30); y2 = c(y1, 20.8)
x3 = c(x1, 19.44); y3 = c(y1, 20.8)
x4 = c(x1, 30); y4 = c(y1, 10)
* 도움이 OLS 회귀는 데이터와 라인 사이의 수직 거리를 최소화하는 라인을 찾기 위해 노력하는 방법을 이해하고, 여기 내 대답을 참조하십시오 Y와 X와 X와 Y에 선형 회귀의 차이점은 무엇입니까?