다중 회귀 분석에서 설명 변수 간의 선형 관계


10

나는 R : 예제 기반 접근법을 사용하여 데이터 분석 및 그래픽 의 다중 회귀 장을 읽고 있었고 설명 변수 (산점도 사용) 사이의 선형 관계를 확인하는 것이 좋습니다. 그들이 그렇게 그들을 변환, 어떤 마에 않는 더 선형 적으로 관련된다. 이것에 대한 발췌문은 다음과 같습니다.

6.3 다중 회귀 모형 적합 전략

(...)

모든 설명 변수가 포함 된 산점도 행렬을 검사하십시오. (이 시점에서 종속 변수를 포함하는 것은 선택 사항입니다. ) 서로에 대한 설명 변수의 도표에서 비선형 성의 증거를 먼저 찾으십시오.

(...)

이 점 은 설명 변수 사이의 회귀 관계가 "간단한"선형 형식을 따르는 모델 검색 전략 탐색 모델을 식별합니다 . 따라서 일부 쌍별 도표가 비선형 성의 증거를 나타내는 경우, 보다 선형적인 관계를 제공하기 위해 변환을 사용하는 것이 좋습니다 . 이 전략에 따라 회귀 관계를 적절하게 모델링하는 것이 반드시 가능하지는 않지만 아래에 제시된 이유로 검색을 시작할 때 따르는 것이 좋습니다.

(...)

설명 변수 사이의 관계가 변환 후에 대략 선형 인 경우, 반응 변수에 대해 예측 변수의 플롯을 자신있게 해석 할 수 있습니다.

(...)

패널에 표시된 (쌍별) 관계가 선형으로 표시되도록하는 하나 이상의 설명 변수의 변환을 찾을 수 없습니다. 이 문제를 만들 수 있습니다 모두 진단 그래프의 해석 어떤 장착 회귀 방정식과에 대한 계수의 해석 피팅 방정식을. Cook and Weisberg (1999)를 참조하십시오.

종속 변수 사이의 선형 관계에 대해 걱정하지 말아야합니까 (다중 선형성 위험 때문에). 대략 선형 적으로 관련된 변수를 갖는 이점은 무엇입니까?

저자들은이 장의 후반부에서 다중 공선 성 문제를 다루지 만이 권장 사항은 다중 공선 성을 피하는 것과 상충되는 것 같습니다.

답변:


8

여기에 두 가지 점이 있습니다.

  1. 이 구절은 비선형 성의 증거가있는 경우에만 IV를 선형으로 변환 할 것을 권장합니다. IV 간의 비선형 관계는 공선 성을 유발할 수 있으며보다 중심적으로 다른 관계를 복잡하게 만들 수 있습니다. 나는이 책의 조언에 동의하지는 않지만 어리석지 않다.

  2. 확실히 매우 강한 선형 관계는 공선 성의 원인 일 수 있지만 문제가되는 공선 성을 유발하기 위해 높은 상관 관계가 필요하거나 충분하지 않습니다. 공선 성을 진단하는 좋은 방법은 조건 인덱스입니다.

의견에 대한 답변으로 수정

조건 인덱스 간략하게 설명되어 여기에 "고유 최소 고유 값으로 나눈 최대의 제곱근"로. 이력서 에는 그들과 그 장점을 논의하는 게시물이 많이 있습니다 . 이 문서의 주요 내용은 David Belsley의 Conditioning diagnostics and Regression Diagnostics (2005 년 새 판도 있습니다)라는 두 권의 책 입니다.


1
+1-좋은 답변이지만 조건 지수를 확장 할 수 있습니까? 후보 설명 변수에서 공선 성을 다루는 만족스러운 방법을 아직 찾지 못했습니다.
BGreene

유익한 답변에 감사드립니다. expl 간의 비선형 성으로 인해 다른 관계가 복잡한 지 자세히 설명해 주시겠습니까? 변수? 그리고 이제 저자들이 expl 간의 비선형 관계라고 말할 때 무엇을 말하고 있습니까? 변수는 계수와 진단 그림의 해석에 문제를 일으킬 수 있습니까?
RicardoC

나는 지금 당장 예를 생각해 낼 수는 없지만 그것이 일어나는 것을 보았습니다. Y와 X 사이에 비선형 관계가있는 것처럼 보일 수 있습니다
Peter Flom

3

각각의 설명 변수와 종속 변수 사이의 선형 관계는 설명 변수 사이의 선형 관계를 보장합니다. 물론 그 반대도 아닙니다.

대략적인 선형성을 제공하도록 설계된 변환이 공선 성을 증가시키는 것은 사실입니다. 그러나 그러한 변환이 없으면 공선 성이 숨겨집니다. 공선 성을 숨겨 두어야한다고 주장하면 단순한 형태의 방정식을 사용할 수있는 복잡하고 해석 할 수없는 회귀 방정식이 생길 수 있습니다.

10 이상의 계수로 다른 값의 범위 가있는 경우 y의 선형 함수에 가깝다고 가정하십시오 . 그런 다음 회귀 변수로 사용되는 경우 x1과의 관계에서 비선형 성을 설명하기 위해 다른 설명 변수를 호출 할 수 있습니다. 결과는 이용 가능한 모든 설명력을 포착하는 단순한 형태의 회귀 방정식 대신 해석 할 수없는 계수를 갖는 매우 복잡한 회귀 관계 일 수 있습니다.log(x1)xx

선형 관련 변수를 찾아서 작업하지 못했을 때 발생할 수있는 기괴한 결과는 최근 1950-2012 년 동안 미국에 상륙 한 94 개의 대서양 허리케인 사망자 데이터에서 허리케인 이름 영향의 여성 성을 주장한 최근 논문에 잘 설명되어 있습니다. http://www.pnas.org/content/111/24/8782.abstract를 참조 하십시오 . 데이터는 보충 정보의 일부로 제공됩니다. log(deaths)정규 이론 선형 모형 (R 's function lm())으로 작업 하고 사용하는 것은 정등 의 음 이항 회귀 모형 사용과 거의 같습니다.

한 회귀 경우 log(E[deaths])에는 log(NDAM)최소 압력 변수는 femaleness 변수와의 상호 작용을 위해 왼쪽 아무것도 설명 할 수 있습니다. 변수 log(NDAM), not NDAM은 최소 압력 변수와 선형으로 관련된 산점도 행렬에 나타납니다. 그것의 분포는 또한 훨씬 덜 비대칭 적이며 대칭에 훨씬 가깝습니다.

Jung 등 log(E[deaths])NDAM(정규화 된 피해)와 다른 변수 및 상호 작용 에 대해 회귀 했다 . 그런 다음 등장한 방정식을 사용하여 이름의 여성 성이 큰 영향을 미치는 이야기를 들었습니다.

NDAM결과 변수가 log(E[deaths]), 플롯 log(deaths+0.5)또는 log(deaths+1)반대 인 회귀에서 설명 변수 로 사용 되는 것이 얼마나 기괴한 지 확인하십시오 NDAM. 그런 다음 log(NDAM)로 대신 플롯을 반복하십시오 NDAM. 융 등이 이상치로 생략 한 카트리나와 오드리가 음모에 포함된다면 대조는 더욱 두드러진다. 정 (Jung) 등 NDAM은 설명 변수가 아닌 설명 변수 를 사용 log(NDAM)하도록함으로써 매우 간단한 회귀 관계를 찾을 수있는 기회를 주었다.

NB E[deaths]는 모델에 의해 예측 된 사망 수입니다.

Jung et al 데이터에서 필요한 변환은 모든 변수의 산점도 행렬에서 식별 할 수 있습니다. R spm()을위한 최신 버전의 R 패키지에서 transform=TRUEand를 deaths변수로 사용 하여 R 함수 를 사용해보십시오 family="yjPower". 또는 초기 산점도 행렬에서 제안한 변환을 실험 해보십시오. 일반적으로 선호되는 조언은 선형 예측 변수 요구 사항을 충족하는 설명 변수를 먼저 찾은 다음 아마도 car 함수를 사용하여 결과 변수에 참여하는 것 invTranPlot()입니다.

질문자가 참조한 "R을 사용한 데이터 분석 및 그래픽"외에 다음을 참조하십시오.

  • Weisberg : 적용된 선형 회귀. 4th edn, Wiley 2014, 185-203 쪽.
  • Fox and Weisberg : 응용 회귀 분석에 대한 R 동반자. 2nd edn, Sage, 2011, pp.127-148.

1

나는 의심 할 여지가 없다면이 전체 구절을 다소 비밀스럽게 생각한다. 이상적으로는 종속 변수를 추정 할 때 모델에 증분 및 추가 정보를 제공하기 위해 독립 변수가 서로 가능한 한 상관 관계가 없도록하려고합니다. 독립 변수 사이의 높은 상관 관계를 통해 다중 공선 성 문제를 제기 할 수 있으며이 상황에서 해당 문제를 제기 할 수 있습니다.

각각의 독립 변수와 종속 변수 사이의 산포도와 관련 선형 관계를 조사하는 것이 더 중요하지만 독립 변수 사이는 아닙니다. 그러한 시점에서 (X 축과 Y 축에 독립적 인) 산포도를 볼 때, 독립 변수를 로그, 지수 또는 다항식을 통해 더 잘 맞도록 관측 할 수있는 기회가있을 수 있습니다.


1
두 번째 문장에서 : 독립 변수가 완전히 서로 관련이 없다면 회귀에 대한 많은 이론적 근거가 무의미해질 것입니다. 예측 변수와 Y의 각 이변 량 관계는 다른 모든 예측 변수가 제어 될 때의 관계와 동일하게 표시됩니다. 그렇다면 왜 통제 하는가?
rolando2
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.