당신이 말하는 선형성 가정은 가 주어진 의 조건부 평균이 선형 함수X iYiXi 말합니다 . 이 가정을 테스트하기 위해 값을 사용할 수 없습니다 .R2
이는 가 관측 된 값과 예측 된 값 사이의 제곱 된 상관 관계이고 상관 계수의 값이 와 (선형 또는 기타) 간의 관계를 고유하게 결정하지 않으므로 다음 두 시나리오가 모두 가능하기 때문입니다. X YR2XY
나는 차례로 차례로 논의 할 것이다 :
(1) 높은 이지만 선형성 가정은 여전히 중요한 방식으로 잘못되었습니다.R2 여기서의 요령은 상관 관계가 특이 치에 매우 민감 하다는 사실을 조작하는 것 입니다. 표준 정규 시간의 인 혼합 분포에서 생성 된 예측 변수 이 있고 의 다른 질량은 이고 반응 변수는 다음과 같습니다. X 1 ,. . . , X N 99%M1%X1,...,Xn99%M1%
Yi={ZiMif Xi≠Mif Xi=M
여기서 이고 은 보다 훨씬 큰 양의 상수입니다 ( 예 : . 그러면 와 는 거의 완벽하게 상관됩니다.Zi∼N(μ,1)Mμμ=0,M=105XiYi
u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1
가 주어진 의 예상 값이 선형이 아니라는 사실에도 불구하고 실제로 는 불연속 스텝 함수이며 의 기대 값은 때를 제외하고 는 의존하지 않습니다 .YiXiYiXiXi=M
(2) 낮지 만 선형성 가정은 여전히 만족합니다.R2 여기서 트릭은 선형 추세 주변의 "잡음"의 양을 크게하는 것입니다. 예측 변수 와 반응 및 모형 이 있다고 가정합니다.Y iXiYi
Yi=β0+β1Xi+εi
올바른 모델이었습니다. 따라서, 조건부 평균 주어진 의 선형 함수이다 선형성 가정이 성립되도록. 만약 대형 상대적 다음 작을 것이다. 예를 들어X i X i v a r ( ε i ) = σ 2 β 1 R 2YiXiXivar(εi)=σ2β1R2
x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698
따라서 선형성 가정을 평가하는 것은 허용 가능한 범위 내에 있는지 확인하는 문제가R2 아니라 예측 변수 / 예측 된 값과 반응 사이의 산점도를 조사하고 (주관적인) 결정을 내리는 문제입니다.
Re : 선형성 가정이 충족되지 않고 IV를 변환해도 도움이되지 않으면 어떻게해야합니까? !!
비선형 성이 문제인 경우 잔차 대 각 예측 변수의 플롯을 보는 것이 도움이 될 수 있습니다. 눈에 띄는 패턴이있는 경우 해당 예측 변수의 비선형 성을 나타낼 수 있습니다. 예를 들어,이 그림이 잔차와 예측 변수 사이에 "볼 모양"관계가있는 경우 해당 예측 변수에서 2 차 항이 누락되었음을 나타낼 수 있습니다. 다른 패턴은 다른 기능적 형태를 나타낼 수 있습니다. 경우에 따라 올바른 변환을 시도하지 않았거나 변환 된 변수 버전에서 실제 모델이 선형이 아닐 수도 있습니다 (합리적인 근사값을 찾을 수도 있음).
귀하의 예와 관련하여 : 두 개의 다른 종속 변수에 대한 예측 대 실제 도표 (원래 게시물의 첫 번째 및 세 번째 도표)를 기반으로 두 경우 모두 선형성 가정이 가능하다고 보입니다. 첫 번째 줄거리에서, 이분산성이있을 수 있지만, 둘 사이의 관계는 매우 선형 적으로 보입니다. 두 번째 그림에서 관계는 선형으로 보이지만 선 주위의 큰 산란 (즉, 큰 오차 분산)으로 표시되는 것처럼 관계의 강도는 다소 약합니다. 이것이 가 낮은 이유 입니다.R2