추가 된 변수 그림 (부분 회귀 그림)은 다중 회귀 분석에서 무엇을 설명합니까?


17

Movies 데이터 집합 모델이 있고 회귀를 사용했습니다.

model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
library(ggplot2)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)

어떤 결과를 얻었습니까?

여기에 이미지 설명을 입력하십시오

이제 Added Variable Plot이라는 것을 처음 시도했지만 다음과 같은 결과가 나타납니다.

car::avPlots(model, id.n=2, id.cex=0.7)

변수 플롯 추가

문제는 Google을 사용하여 추가 변수 플롯을 이해하려고 시도했지만 깊이를 이해할 수 없었습니다. 플롯과 관련하여 출력과 관련된 각 입력 변수를 기반으로 한 왜곡의 표현을 이해했습니다.

데이터 정규화가 어떻게 정당화되는지와 같은 좀 더 자세한 정보를 얻을 수 있습니까?


4
@Silverfish는 귀하의 질문에 대한 좋은 답변을주었습니다. 특정 데이터 세트로 수행 할 작업에 대한 작은 세부 사항에서 선형 모델은 매우 나쁜 생각처럼 보입니다. 투표는 명백하게 치우친 비음 수 변수이므로 포아송 모델과 같은 것이 표시됩니다. 예를 들어 blog.stata.com/tag/poisson-regression을 참조하십시오. 이러한 모형은 반응의 한계 분포가 표준 선형 모형보다 한계 포지셔닝을 가정하는 것보다 정확하게 포아송이라는 가정을하지 않습니다.
Nick Cox

2
선형 모델이 제대로 작동하지 않는 것을 확인하는 한 가지 방법은 상당한 비율의 사례에 대해 음수 값을 예측한다는 것입니다. 첫 번째 잔차 그림에서 왼쪽의 적합치 을 참조하십시오 . =0
Nick Cox

감사합니다 Nick Cox, 여기에 비대칭 비 왜곡 특성이 있음을 발견했습니다 .Poisson 모델을 고려해야합니다. 따라서 데이터 세트를 기반으로 한 시나리오에서 어떤 모델을 사용 해야하는지에 대한 적절한 아이디어를 제공하는 링크가 있습니까? 다항식 회귀 내 데이터 집합, 즉 여기에 올바른 선택 것입니다 ...
Abhishek Choudhary

1
이미 추가 참조를 제공하는 링크를 제공했습니다. 죄송합니다. "데이터 집합 기반 시나리오"및 "다항식 회귀 분석"과 관련하여 질문의 후반부를 이해하지 못합니다. 훨씬 더 자세히 새 질문을해야한다고 생각합니다.
Nick Cox

R이 기능을 인식하도록 어떤 패키지를 설치 했 avPlots습니까?
Isa

답변:


36

예시를 위해 , 예측 변수 X 2X 3 이 상관 될 수있는 덜 복잡한 회귀 모델 Y=β1+β2X2+β3X3+ϵ 취할 것입니다. 하자 슬로프 말 β (2)β (3)가 모두 긍정적 인 우리가 말할 수 있도록 그 (I) 의 Y 로 증가 X 이 개 증가하면 X 3는 개최 일정은 이후입니다 β 2 개X2X3β2β3YX2X3β2 긍정적이다; (ii) Yβ 3 이 양수 이므로 X 2 가 일정하게 유지 되면 X3 증가 함에 따라 증가한다 .X2β3

다른 변수가 일정하게 유지 될 때 발생하는 상황 ( "세 테리아 파리 부") 을 고려하여 다중 회귀 계수를 해석하는 것이 중요합니다 . 난 그냥 회귀한다고 가정 Y 상대로 X2 모델로 Y=β1+β2X2+ϵ . 기울기 계수 β2 대한 나의 추정은 X 3 유지 하지 않고 X 2 에서 한 단위 증가의 Y 에 미치는 영향을 측정합니다.X2 X3일정하게 나의 추정치가 나의 추정치 β 와 다를 수β2 회귀들 - 즉,도에 미치는 영향을 측정Y 에 하나 개의 단위 증가X2 하지만않는홀드X3 상수. 내 추정β2^ 의 문제는 X 2 X 인 경우생략 된 변수 바이어스가 발생한다는 것입니다X2X3 이 서로 관련입니다.

이유를 이해하려면 X2X3 이 음의 상관 관계가 있다고 가정하십시오. 이제 X2 를 한 단위 씩 늘리면 β 2 > 0 이후 Y 의 평균값 이 증가해야 한다는 것을 알고 있습니다. 그러나 X 2가 증가함에 따라 X 3을 일정하게 유지하지 않으면 X 3 이 감소하는 경향이 있으며 β 3 > 0 이기 때문에 Y 의 평균값이 감소하는 경향이 있습니다 . 따라서 X 2 3 의 한 단위 증가의 전체적인 효과 또한 변하기 때문에 ββ2>0X2X3X3β3>0YX2 내가 허용하는 경우 낮은 나타납니다 X3β2<β2. 상황이 악화 더 강하게 얻을X2X3상관 관계, 그리고 효과가 큰X3을 통해β3- 정말 심각한 경우에 우리는 심지어 찾을 수 있습니다β2<0우리가 알고에도 불구하고, paribus을 다른 조건,X2에 긍정적 인 영향을 미칩니다Y!

이제 X 2 에 대해 Y 의 그래프를 그리는 것이 모델에서 YX 2 의 관계를 시각화하는 데 좋지 않은 이유를 알 수 있기를 바랍니다 . 내 예에서, 당신의 눈은 회귀 모델 의 ^ β 2 를 반영하지 않는 기울기 ^ β 2 에 가장 잘 맞는 선으로 그려 질 것 입니다. 최악의 경우, 모형은 X 2가 증가 함에 따라 Y가 증가 한다고 예측할 수 있지만 (다른 변수는 일정하게 유지됨) 그래프의 점은 YX에 따라 감소 함을 나타냅니다.X2YX2β2^β2^YX2YX2 증가나타냅니다.

문제는 X 2 에 대한 Y 의 간단한 그래프 에서 다른 변수는 일정하게 유지되지 않는다는 것입니다. 이것은 추가 변수 그림 (부분 회귀 그림이라고도 함)의 이점에 대한 중요한 통찰력입니다. Frisch-Waugh-Lovell 정리를 사용하여 다른 예측 변수의 효과를 "부분적으로 계산"합니다. 그림의 수평선 및 수직 축은 아마도 " 다른 예측 변수가 계산 된 후 X 2 "및 " 다른 예측 변수가 계산 된 후 Y " 로 가장 쉽게 이해 될 수 있습니다 * . 이제 YX 의 관계를 볼 수 있습니다X2X2YYX2 다른 모든 예측 변수가 설명되면 2. 예를 들어, 각 그림에서 볼 수있는 기울기는 이제 원래 다중 회귀 모델의 부분 회귀 계수를 반영합니다.

추가 된 변수 그림의 잔차가 원래 다중 회귀 분석의 잔차이므로, 추가 된 변수 그림의 많은 값이 회귀 진단 단계에서 발생합니다. 이는 다중 회귀 모델이 아닌 단순 회귀 모형을 볼 때와 유사한 방식으로 특이 치와 이분산성을 식별 할 수 있음을 의미합니다. 영향력있는 지점도 볼 수 있습니다. 다른 변수를 고려하기 전에 원본 데이터에서 일부 영향력있는 지점이 명확하지 않기 때문에 다중 회귀 분석에 유용합니다. 내 예에서, 적당히 큰 X2 값은 데이터의 테이블에 장소 밖으로 보이지만하지 않을 경우 X3 값에도 불구하고뿐만 아니라 큰 X2X3 이 음의 상관 관계를 갖는 경우, 조합은 드물다. "다른 예측 변수를 고려하면"X2 값이 비정상적으로 커지고 추가 된 변수 그림에서 더 두드러지게 나타납니다.

보다 기술적으로는 2 개의 다른 다중 회귀 분석을 실행할 때의 잔차가됩니다. X 2 이외의 모든 예측 변수에 대한Y 회귀의 잔차는 세로 축으로 이동하고 회귀 X 2 의 잔차는모든 가로 축으로 이동합니다. 이것이 바로 " Y given others"와 " X 2 given others"의 전설이여러분에게 말하는 것입니다. 이 두 회귀 모두의 평균 잔차가 0이므로 ( X 2의 다른평균, YX2X2YX2X2Y추가 된 변수 그림의 회귀선이 항상 원점을 통과하는 이유를 설명하는 (0, 0)입니다. 그러나 나는 종종 축을 언급하는 것이 다른 회귀의 잔차라는 사실을 사람들에게 혼란스럽게 만듭니다 (아마도 우리가 지금 네 가지 다른 회귀에 대해 이야기하고 있기 때문에 놀랍지 않습니다!). " 다른 사람에게 주어진 X2 "와 " 다른 사람에게 주어진 Y "로 이해하면 괜찮을 것입니다.


어떻게 물어보아야할지 모르겠지만 음모에서 보여지는 추세에 대해 실제로 말할 수있는 것이 있습니까? 예를 들어 각 추세의 적합도는 각 예측 변수가 얼마나 독립적인지 또는 이와 유사한가?
naught101

2
수평 및 수직 축의 잔차 단위를 기본 변수 단위로 변환하는 방법이 있습니까?
Nicholas G

이것은 훌륭한 답변입니다. 그러나 첫 번째 단락에 오타가 있습니까 (예측 변수)? X2와 X3이어야합니까?
detly

@detly 감사합니다, 변경되었습니다!
실버 피쉬

Silverfish, @NicholasG 질문에 대한 답변을 알고 있습니까? 잔차를 X 변수 단위로 해석 할 수있는 방법이 있습니까?
Parseltongue

-1

음모에 보이는 경향에 대해 실제로 말할 수있는 것이 있습니까?

물론, 그 기울기는 원래 모델의 회귀 계수입니다 (부분 회귀 계수, 다른 모든 예측 변수는 일정하게 유지됨)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.