각각의 설명 변수와 종속 변수 사이의 선형 관계는 설명 변수 사이의 선형 관계를 보장합니다. 물론 그 반대도 아닙니다.
대략적인 선형성을 제공하도록 설계된 변환이 공선 성을 증가시키는 것은 사실입니다. 그러나 그러한 변환이 없으면 공선 성이 숨겨집니다. 공선 성을 숨겨 두어야한다고 주장하면 단순한 형태의 방정식을 사용할 수있는 복잡하고 해석 할 수없는 회귀 방정식이 생길 수 있습니다.
10 이상의 계수로 다른 값의 범위 가있는 경우 y의 선형 함수에 가깝다고 가정하십시오 . 그런 다음 회귀 변수로 사용되는 경우 x1과의 관계에서 비선형 성을 설명하기 위해 다른 설명 변수를 호출 할 수 있습니다. 결과는 이용 가능한 모든 설명력을 포착하는 단순한 형태의 회귀 방정식 대신 해석 할 수없는 계수를 갖는 매우 복잡한 회귀 관계 일 수 있습니다.log(x1)xx
선형 관련 변수를 찾아서 작업하지 못했을 때 발생할 수있는 기괴한 결과는 최근 1950-2012 년 동안 미국에 상륙 한 94 개의 대서양 허리케인 사망자 데이터에서 허리케인 이름 영향의 여성 성을 주장한 최근 논문에 잘 설명되어 있습니다. http://www.pnas.org/content/111/24/8782.abstract를 참조 하십시오 . 데이터는 보충 정보의 일부로 제공됩니다. log(deaths)정규 이론 선형 모형 (R 's function lm())으로 작업 하고 사용하는 것은 정등 의 음 이항 회귀 모형 사용과 거의 같습니다.
한 회귀 경우 log(E[deaths])에는 log(NDAM)최소 압력 변수는 femaleness 변수와의 상호 작용을 위해 왼쪽 아무것도 설명 할 수 있습니다. 변수 log(NDAM), not NDAM은 최소 압력 변수와 선형으로 관련된 산점도 행렬에 나타납니다. 그것의 분포는 또한 훨씬 덜 비대칭 적이며 대칭에 훨씬 가깝습니다.
Jung 등 log(E[deaths])은 NDAM(정규화 된 피해)와 다른 변수 및 상호 작용 에 대해 회귀 했다 . 그런 다음 등장한 방정식을 사용하여 이름의 여성 성이 큰 영향을 미치는 이야기를 들었습니다.
NDAM결과 변수가 log(E[deaths]), 플롯 log(deaths+0.5)또는 log(deaths+1)반대 인 회귀에서 설명 변수 로 사용 되는 것이 얼마나 기괴한 지 확인하십시오 NDAM. 그런 다음 log(NDAM)로 대신 플롯을 반복하십시오 NDAM. 융 등이 이상치로 생략 한 카트리나와 오드리가 음모에 포함된다면 대조는 더욱 두드러진다. 정 (Jung) 등 NDAM은 설명 변수가 아닌 설명 변수 를 사용 log(NDAM)하도록함으로써 매우 간단한 회귀 관계를 찾을 수있는 기회를 주었다.
NB E[deaths]는 모델에 의해 예측 된 사망 수입니다.
Jung et al 데이터에서 필요한 변환은 모든 변수의 산점도 행렬에서 식별 할 수 있습니다. R spm()을위한 최신 버전의 R 패키지에서 transform=TRUEand를 deaths변수로 사용 하여 R 함수 를 사용해보십시오 family="yjPower". 또는 초기 산점도 행렬에서 제안한 변환을 실험 해보십시오. 일반적으로 선호되는 조언은 선형 예측 변수 요구 사항을 충족하는 설명 변수를 먼저 찾은 다음 아마도 car 함수를 사용하여 결과 변수에 참여하는 것 invTranPlot()입니다.
질문자가 참조한 "R을 사용한 데이터 분석 및 그래픽"외에 다음을 참조하십시오.
- Weisberg : 적용된 선형 회귀. 4th edn, Wiley 2014, 185-203 쪽.
- Fox and Weisberg : 응용 회귀 분석에 대한 R 동반자. 2nd edn, Sage, 2011, pp.127-148.