다중 회귀 분석에 대한 잔차 대 적합치 그림의 대각선 직선


11

데이터의 잔차에서 이상한 패턴이 관찰됩니다. 여기에 이미지 설명을 입력하십시오

[편집] 다음은 두 변수에 대한 부분 회귀 그림입니다.

http://i.imgur.com/Lh36l.png

http://i.imgur.com/akMjB.png

[EDIT2] PP 플롯 추가 http://i.imgur.com/pCKFA.png

배포판이 제대로 작동하는 것 같지만 (아래 참조)이 직선이 어디에서 오는지 전혀 모르겠습니다. 어떤 아이디어? 여기에 이미지 설명을 입력하십시오

[업데이트 31.07]

그것은 당신이 절대적으로 옳은 것으로 나타났습니다, 나는 리트 윗 수가 실제로 0 인 경우를 가지고 있었고 ~ ~ 15 건은 그 이상한 잔존 패턴을 초래했습니다.

잔차가 훨씬 좋아졌습니다. http://i.imgur.com/XGas9.png

또한 황토 선과 함께 부분 회귀를 포함했습니다. http://i.imgur.com/Jcr2M.png http://i.imgur.com/eb376.png


원본 데이터에 표시된 적합 선을 추가 할 수 있습니까?
MånsT

또한 인물의 자막에는 "커뮤니티 : 애니메이션"과 "커뮤니티 : 점성술"이 있는데,이 플롯은 서로 다른 데이터 세트에서 나온 것으로 보입니다.
MånsT

종속 변수가 범주 형이거나 '연속적이지 않은'경우 잔차에서 이러한 유형의 패턴을 본 것을 기억합니다.
King

적절한 PP 플롯과 두 IV의 부분 플롯을 추가했습니다
plotti

답변:


23

일부 하위 범위에서 종속 변수는 일정 하거나 예측 변수에 정확히 선형으로 의존하는 것으로 보입니다 . X와 Y라는 두 개의 상관 변수가 있습니다 (Y는 종속적 임). 산점도는 왼쪽에 있습니다.

여기에 이미지 설명을 입력하십시오

예를 들어 첫 번째 ( "일정한") 가능성으로 돌아 갑시다. 모든 Y 값을 최저 -0.5에서 단일 값 -1로 다시 기록하십시오 (중앙 그림 참조). X에서 Y를 회귀하고 잔차 산포, 즉 중심선을 회전시켜 예측 선이 수평이되도록합니다. 사진과 비슷합니까?


6
그것은 최선의 법의학 통계입니다! 큰 +1.
Michael R. Chernick

그것은 당신이 절대적으로 옳은 것으로 나타났습니다, 나는 리트 윗 수가 실제로 0 인 경우를 가지고 있었고 ~ ~ 15 건은 그 이상한 잔존 패턴을 초래했습니다. i.imgur.com/XGas9.png
plotti

4

히스토그램에서 패턴이 보이지 않는 것은 놀라운 일이 아닙니다. 홀수 패턴은 막대 그래프 범위의 일부에 해당하며 각 구간의 데이터 포인트 만 나타냅니다. 실제로 어떤 데이터 포인트가 있는지 찾아보고 살펴 봐야합니다. 예측 된 값과 잔차를 사용하여 쉽게 찾을 수 있습니다. 일단 가치가 발견되면 그 가치가 특별한 이유를 조사하기 시작하십시오.

말했듯이,이 특정 패턴은 길기 때문에 특별합니다. 잔차 그림과 Quantile 그림을주의 깊게 살펴보면 반복하지만 작은 시퀀스임을 알 수 있습니다. 아마도 실제로는 단지 예외 일뿐입니다. 아니면 실제로 반복되는 패턴 일 수도 있습니다. 그러나 원시 데이터의 위치를 ​​찾아서 그것을 이해하려는 희망을 갖기 위해 조사해야 할 것입니다.

약간의 도움을주기 위해 Quantile-quantile 플롯은 동일한 잔차가 있다고 제안합니다. 코딩 오류 일 수 있습니다. R에서 비슷한 것을 생성 할 수 있습니다 ...

x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)

라인에서 평평한 두 개의 평평한 부분을 확인하십시오. 그러나 동일한 잔차가 다양한 예측 변수에 적용된다는 의미가 있기 때문에 그보다 더 복잡해 보입니다.


3

사용중인 것 같습니다 R. 그렇다면 ? identify를 사용하여 산점도에서 점을 식별 할 수 있습니다 . 나는 여기에 몇 가지 일이 있다고 생각합니다. 먼저, LN_RT_vol_in ~ LN_AT_vol_in(강조 표시된 부분) 의 줄거리 에서 약 (.2, 1.5) 에 매우 영향력있는 지점이 있습니다. 이것은 약 -3.7 인 표준화 된 잔차 일 가능성이 높습니다. 이 점의 효과는 회귀선을 평평하게하여 다른 방법으로는 얻었을 때보 다 위쪽으로 기울어지게하는 것입니다. 그 효과는 모든 잔차가 줄거리 내에서 위치 했을 때를 기준 으로 시계 반대 방향으로 회전 한다는 것입니다 residual ~ predicted(적어도 공변량으로 생각하고 다른 것을 무시할 때).

그럼에도 불구하고, 명백한 잔차 직선은 원래 데이터의 3 차원 구름 어딘가에 존재하기 때문에 여전히 존재합니다. 한계점에서 찾기가 어려울 수 있습니다. 식별 () 함수를 사용하면 도움이되고 rgl 패키지를 사용하여 마우스로 자유롭게 회전 할 수있는 동적 3D 산점도를 만들 수도 있습니다. 그러나 직선 잔차는 예측 값에서 모두 0 미만이고 잔차가 0보다 낮습니다 (즉, 적합 회귀선 아래). 어디를 볼지에 대한 큰 힌트를줍니다. 당신의 음모를 다시 보면서LN_RT_vol_in ~ LN_AT_vol_in나는 그들을 볼 수 있다고 생각합니다. 해당 영역에있는 점 구름의 아래쪽 가장자리에서 약 (-.01, -1.00)에서 대각선으로 아래로 왼쪽으로 뻗어있는 점들이 상당히 똑 바르습니다. 나는 이것이 그 점이 의심 스럽다고 생각한다.

다시 말해서, 잔차는 이미 데이터 공간 내 어딘가에 있기 때문에 그렇게 보입니다. 본질적으로 이것은 @ttnphns가 제안하는 것입니다. 그러나 원래 치수에서 일정하다고 생각하지 않습니다. 원래 축과 각도가 일정한 치수라고 생각합니다. 또한 @MichaelChernick에 동의합니다. 잔류 그림 에서이 명백한 직진은 무해하지만 데이터가 실제로는 정상적이지 않다는 데 동의합니다. 그러나 다소 평범한 데이터이므로 적절한 수의 데이터가있는 것처럼 보이므로 CLT가 당신을 덮을 수 있지만 경우에 대비하여 부트 스트랩을 원할 수 있습니다. 마지막으로, 'outlier'가 결과를 주도하고 있다고 걱정합니다. 강력한 접근 방식은 아마 만했다된다.


1
이 문장이 it's a constant in a dimension at an angle to your original axes내 것과 비교 될 수 있습니까 is exactly linearly dependent on the predictor(s), 아니면 다른 의미가 있습니까?
ttnphns

@ttnphns, 나는 그것을 감추었을 때 당신의 대답의 일부를 놓쳤다. 나는 "일정한"것을 보았고 당신의 음모의 요점을 보았습니다. 그렇습니다. "차원의 상수입니다 ..."는 논리적으로 동의어입니다. 나는 나의 핵심 포인트가 당신과 거의 동일하다는 것을 알고 있지만, 다른 포인트 (어떤 데이터가 범인, R 전략, 강력한 접근법 등 일지 모릅니다)가 여전히 토론에 기여하고 있다고 생각합니다.
gung-Monica Monica 복원

물론, 당신의 대답은 많은 도움이되었습니다.
ttnphns

1

히스토그램이 괜찮다고 말할 필요는 없습니다. 히스토그램에 가장 잘 맞는 법선을 시각적으로 겹쳐 놓는 것은 현혹 할 수 있으며 조직 폭은 빈 너비 선택에 민감 할 수 있습니다. 정규 확률도는 정규에서 큰 이탈을 나타내는 것으로 보이고 심지어 히스토그램을 보면 눈에 약간의 비대칭이있는 것 같습니다 ([-0.5,0] 빈과 비교하여 [0, + 0.5] 빈에서 더 높은 주파수) 및 심한 첨도 ([-4, -3.5] 및 [2.5, 3] 간격에서 너무 큰 빈도).

패턴에 관해서는 산점도를 통한 선택적 탐색에서 오는 패턴 일 수 있습니다. 더 많이 사냥하면 골라 낸 것과 거의 평행 한 두 개 또는 세 개의 선을 찾을 수 있습니다. 나는 당신이 이것에 대해 너무 많이 읽고 있다고 생각합니다. 그러나 비정규 성은 실제 관심사입니다. 잔차가 거의 -4 인 매우 큰 특이 치가 있습니다. 이 잔차는 최소 제곱 적합에서 오는가? 데이터의 산점도에서 적합 선을 보는 것이 깨달을 수 있다는 데 동의합니다.


나는 이것에 더 많은 빛을
비추기

1
가장 기본적인 것은 데이터의 산점도를 통한 적합 선입니다.
Michael R. Chernick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.