다중 회귀 분석에서 값을 사용하여 선형성 가정을 테스트하려면 어떻게해야합니까?


13

아래 그래프는 "정규성", "균등성"및 "독립성"가정이 이미 충족 된 회귀 테스트의 잔차 산점도입니다! "선형성" 가정을 테스트하기 위해 그래프를 보면 관계가 곡선 적이라고 추측 할 수 있지만 문제는 다음과 같습니다. "R2 선형"값을 사용하여 선형성 가정을 테스트 할 수 있습니까? 관계가 선형인지 여부를 결정하기 위해 "R2 선형"값의 허용 범위는 무엇입니까 ? 선형성 가정이 충족되지 않고 IV를 변환해도 도움이되지 않으면 어떻게해야합니까? !!

다음 은 테스트의 전체 결과에 대한 링크입니다.

산포도 :

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오


3
SPSS를 사용하고있는 그래프를 보면 알 수 있습니다. 그래프를 열어 편집하고 "적합 선 추가 버튼"을 찾으십시오. 여기에는 비선형 선화 옵션 (예 : Loess)이 있습니다. 이 옵션이 올바른 직선인지 확인하십시오.
ttnphns

@ ttnphns : Loess 줄 2에 질문을 추가했습니다.
사이러스

글쎄, 그것은 곡선처럼 보이지 않습니까? Loess 매개 변수를 사용하여 더 많은 것을 재생할 수 있습니다. 선이 곡선이면 관계가 선형이 아니라는 것을 시각적으로 알 수 있습니다.
ttnphns

@ Cyrus, 나는이 질문에 대한 일반적인 답변을 게시했지만 플롯에 약간의 해석을 추가하려고했으며 및 축이 플롯에 무엇인지 확실하지 않다는 것을 깨달았습니다 . xy
매크로

@ ttnphns : 그렇습니다. 곡선 형입니다. 이 모델을 어떻게 다루어야할지 모르겠습니다! 이 테스트 (# 2)에는 DV (PIT)에 직접 영향을주는 2 개의 IV가 있습니다. 회귀 결과는 IV 중 1 개만이 DV에 유의 한 영향을 미친다는 것을 보여 주었다. R2는 너무 낮고 (0.172) 선형성이 낮습니다 (적어도 그래프에 따르면 IV가 낮은 수준 일 때). 이 테스트가 수용 가능한지 아닌지 모르겠습니다! 심지어 두 IV를 (LN을 계산하여) 변형하고 회귀를 다시 실행했지만 결과는 훨씬 나빠졌습니다!
사이러스

답변:


15

당신이 말하는 선형성 가정은주어진 의 조건부 평균이 선형 함수X iYiXi 말합니다 . 이 가정을 테스트하기 위해 값을 사용할 수 없습니다 .R2

이는 가 관측 된 값과 예측 된 값 사이의 제곱 된 상관 관계이고 상관 계수의 값이 (선형 또는 기타) 간의 관계를 고유하게 결정하지 않으므로 다음 두 시나리오가 모두 가능하기 때문입니다. X YR2XY

  • 높은 이지만 선형성 가정은 여전히 ​​중요한 방식으로 잘못되었습니다.R2

  • 낮은 이지만 선형성 가정은 여전히 ​​만족R2

나는 차례로 차례로 논의 할 것이다 :

(1) 높은 이지만 선형성 가정은 여전히 ​​중요한 방식으로 잘못되었습니다.R2 여기서의 요령은 상관 관계가 특이 치에 매우 민감 하다는 사실을 조작하는 것 입니다. 표준 정규 시간의 인 혼합 분포에서 생성 된 예측 변수 이 있고 의 다른 질량은 이고 반응 변수는 다음과 같습니다. X 1 ,. . . , X N 99%M1%X1,...,Xn99%M1%

Yi={Ziif XiMMif Xi=M

여기서 이고 은 보다 훨씬 큰 양의 상수입니다 ( 예 : . 그러면 와 는 거의 완벽하게 상관됩니다.ZiN(μ,1)Mμμ=0,M=105XiYi

u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1

가 주어진 의 예상 값이 선형이 아니라는 사실에도 불구하고 실제로 는 불연속 스텝 함수이며 의 기대 값은 때를 제외하고 는 의존하지 않습니다 .YiXiYiXiXi=M

(2) 낮지 만 선형성 가정은 여전히 ​​만족합니다.R2 여기서 트릭은 선형 추세 주변의 "잡음"의 양을 크게하는 것입니다. 예측 변수 와 반응 및 모형 이 있다고 가정합니다.Y iXiYi

Yi=β0+β1Xi+εi

올바른 모델이었습니다. 따라서, 조건부 평균 주어진 의 선형 함수이다 선형성 가정이 성립되도록. 만약 대형 상대적 다음 작을 것이다. 예를 들어X i X i v a r ( ε i ) = σ 2 β 1 R 2YiXiXivar(εi)=σ2β1R2

x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698

따라서 선형성 가정을 평가하는 것은 허용 가능한 범위 내에 있는지 확인하는 문제가R2 아니라 예측 변수 / 예측 된 값과 반응 사이의 산점도를 조사하고 (주관적인) 결정을 내리는 문제입니다.

Re : 선형성 가정이 충족되지 않고 IV를 변환해도 도움이되지 않으면 어떻게해야합니까? !!

비선형 성이 문제인 경우 잔차 대 각 예측 변수의 플롯을 보는 것이 도움이 될 수 있습니다. 눈에 띄는 패턴이있는 경우 해당 예측 변수의 비선형 성을 나타낼 수 있습니다. 예를 들어,이 그림이 잔차와 예측 변수 사이에 "볼 모양"관계가있는 경우 해당 예측 변수에서 2 차 항이 누락되었음을 나타낼 수 있습니다. 다른 패턴은 다른 기능적 형태를 나타낼 수 있습니다. 경우에 따라 올바른 변환을 시도하지 않았거나 변환 된 변수 버전에서 실제 모델이 선형이 아닐 수도 있습니다 (합리적인 근사값을 찾을 수도 있음).

귀하의 예와 관련하여 : 두 개의 다른 종속 변수에 대한 예측 대 실제 도표 (원래 게시물의 첫 번째 및 세 번째 도표)를 기반으로 두 경우 모두 선형성 가정이 가능하다고 보입니다. 첫 번째 줄거리에서, 이분산성이있을 수 있지만, 둘 사이의 관계는 매우 선형 적으로 보입니다. 두 번째 그림에서 관계는 선형으로 보이지만 선 주위의 큰 산란 (즉, 큰 오차 분산)으로 표시되는 것처럼 관계의 강도는 다소 약합니다. 이것이 가 낮은 이유 입니다.R2


4

확실히 LOESS와 같이 더 매끄럽게 피팅하고 선형에 얼마나 가까운 지 확인하는 것은 함수의 선형성을 평가하는 한 가지 방법입니다. R 스퀘어가 선형성을 측정 할 수있는 정도 인 질문의 요점을 다루고 싶습니다. 분명히 이후 수단은 데이터 라인에 완벽하게 떨어진다. 그러나 가까운 방법의 문제 않는 필요가 곡선이 직선이 소리 것보다 더 어려운되어 있는지 결정하기 위해 수 있습니다. 확실히 샘플 크기는 요인입니다. 3 ~ 6 포인트 만 있으면1 R 2 R 2 2 1 < X < 2 R 2 R 2R2=11R2R2데이터를 나타내는 함수의 모양에 관계없이 매우 높을 수 있습니다. 큰 샘플에서도 데이터가 수집되는 영역이 중요합니다. 비선형 함수는 로컬에서 선형으로 보입니다. 다항식의 경우 특히 그렇습니다. y = x 함수를 고려하십시오 . 영역 에서 함수는 선형으로 보이며 가산 노이즈가 적은이 모델에서 생성 된 데이터는 값이 높습니다 . 반면에 모델은 완벽하게 선형 일 수 있지만 잡음 성분이 크며 는 작을 수 있습니다.21<x<2R2R2


고마워 마이클. 내 샘플 크기는 302입니다. 여기서 테스트 결과를 볼 수 있고보고하기에 그럴듯하고 유능한 지 알아볼 수 있다면 감사하겠습니다 . TQ
사이러스

@Cyrus 이것은 어려운 것입니다. 잔차는 정규 분포에 실제로 맞는 것처럼 보이며 선형 회귀에 문제가있는 것을 볼 수있는 것은 없습니다. 적절한 양의 데이터가 있습니다. 랜덤 노이즈 성분이 크기 때문에 R 제곱이 낮습니다. LOESS 플롯은 독립 변수의 낮은 값에서 약간의 곡률을 보여줍니다. 그러나 나는 그 설득력이 없습니다. 나는 그것이 선형 일 수 있다고 생각하며,이 경우 R 사각형이 좋은 지표가 아닌 이유를 보여줍니다.
Michael R. Chernick

Tq Michael :) 예, 정말 당황 스럽습니다! 모든 가정은 완벽하지만 선형성입니다. 위의 첫 번째 그래프에서 볼 수 있듯이 2 차 R2 (0.199)는 선형 R2 (0.172)보다 크기 때문에 모형을 더 잘 예측할 수 있습니다. 실제로 2 차 회귀를 수행했을 때 (SC2를 추가하여) 결과의 산포도는 이분법 적이었습니다! 난 너무 혼란 스러워요! 이 모델로 무엇을 해야할지 모르겠다! 유일한 문제는 낮은 선형성입니다. 보고서에 산점도를 넣으면 선형성을 정당화하는 방법을 모릅니다. 2 차 회귀는 또한 균질성 가정을 충족시키지 못합니다. 도움말
Cyrus

1
나는 그것이 당황하다고 생각하지 않습니다. 상당히 선형 적으로 보입니다. 가변성이 많기 때문에 R 제곱이 낮습니다. 가변성을 줄일 수있는 유일한 방법은 설명 변수를 찾는 것입니다.
Michael R. Chernick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.