다 변수 회귀 분석에 변수를 더 추가하면 기존 변수의 계수가 변경됩니까?


16

3 개의 변수로 구성된 다 변수 (여러 독립 변수) 회귀 분석이 있다고 가정 해보십시오. 각 변수에는 주어진 계수가 있습니다. 4 번째 변수를 도입하고 회귀를 다시 실행하기로 결정한 경우, 3 개의 원래 변수 계수가 변경됩니까?

더 광범위하게 : 다 변수 (다중 독립 변수) 회귀 분석에서 주어진 변수의 계수가 다른 변수의 계수에 영향을 받습니까?


1
보다 정확한 질문을 수정하십시오. 에 의해 마십시오 multivariable여러 독립 변수 ( "다중 회귀") 또는 다수의 종속 변수 ( "다변량 회귀"또는 "MAN을 (C) OVA")을 의미 당신은?
ttnphns

1
대답이 '아니오'인 경우, 처음에는 다 변수 회귀 분석을 수행 할 필요가 없습니다! (단순히 많은 단일 변수를 수행 할 수 있음)
user603

1
그것은 @ user603의 통찰력있는 요점이지만, 다른 변수가 의미있는 반응 (설명 변수는 아니지만)과 관련이 있으면 잔차 분산이 감소 할 수 있다는 점에서 다중 회귀의 여지가 여전히 있다고 생각합니다. 전력 및 정밀성.
gung-복직 모니카

답변:


23

회귀 모델 (예를 복수의 파라미터 추정치 β 변수, 경우) 변화 할 X의 j는 인 모델에 추가된다 : β^iXj

  1. 해당 매개 변수의 해당 변수 인 (이미 모델에 있음) 와 상관 관계가 있으며Xi
  2. 반응 변수 Y 와 상관Y

위 변수 중 하나가 서로 관련이없는 경우 새 변수를 추가해도 예상 베타는 변경되지 않습니다. 그들은에 상관 있는지 유의 인구 (즉, , 또는 ρ ( X J , Y ) = 0 ) 무관하다. 중요한 것은 두 샘플 상관 이 정확히 0이라는 것 입니다. 변수가 설계에 의해 상관되지 않도록 조작 된 실험 데이터로 작업하지 않는 한 실제로는 실제로는 그렇지 않습니다. ρ(Xi,Xj)=0 ρ(Xj,Y)=00

매개 변수가 변경되는 양은 그다지 의미가 없을 수도 있습니다 (적어도 부분적으로 이론에 따라 다름). 또한, 그들이 바꿀 수있는 양은 위의 두 상관 관계의 크기의 함수입니다.

다른 관점에서,이 현상을 "다른 변수의 계수에 의해 영향을받는 주어진 변수의 계수"로 생각하는 것은 실제로 옳지 않다. 서로 영향을주는 것은 베타 가 아닙니다 . 이 현상은 통계 소프트웨어가 기울기 파라미터를 추정하는 데 사용하는 알고리즘의 자연스러운 결과입니다. X iX j 모두에 의해 발생 하여 서로 상관 되는 상황을 상상해보십시오 . X i 만 모형에있는 경우 X j 로 인한 Y 의 변동 중 일부는 X i에 부적절하게 기인합니다.YXiXjXiYXjXi. 이는 값 이 바이어스 됨을 의미합니다 . 이를 생략 된 변수 바이어스 라고 합니다 . Xi


마지막 문장에서 아주 좋은 지적입니다.
Glen_b-복지 주 모니카


@gung 난 당신의 대답은 오래 알고 있지만 난 그냥이 시도 ideone.com/6CAkSR을 내가 만든 곳 X 2는 상관 관계 및 X 1 과 상관입니다 Y . 그러나 x 1 을 모델에 추가하면 x 1y 와 상관이 없지만 x2 매개 변수가 변경되었습니다 . 귀하는 귀하의 답변에서 "응답 변수와 상관 관계가 있습니다. Y 위 의 변수 중 하나가 상관이없는 경우 새 변수가 추가 될 때 예상 베타가 변경되지 않습니다. "라고 대답했습니다 . 내가 잘못? yx2x1yx1x1yY
floyd

1
@floyd와는 크게 상관 관계가있을뿐만 아니라 완벽하게 상관 관계가 없어야합니다. 그렇다면 약간의 오류가 없으면 의 베타 버전 이 변경되지 않아야합니다. s1
gung-모니 티 복원

답장을 보내 주셔서 감사합니다. 완벽한 데이터를 만드는 방법을 알고 있습니까? 나는 그것이 현실에서 일어날 수 없다는 것을 알고있다
floyd

3

수학적으로 계수가 변경되지는 않지만 모든 독립 변수가 서로 독립적이더라도 실제 데이터에는 전혀 변화가 없을 것 같습니다. 그러나이 경우 변경 (절편 이외)은 0이됩니다.

set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)

그러나 현실 세계에서 독립 변수는 종종 서로 관련이 있습니다. 이 경우 방정식에 4 번째 변수를 추가하면 다른 계수가 변경 될 수 있습니다.

그런 다음 가능한 상호 작용이 있습니다 .... 그것은 또 다른 질문입니다.


1

일반적으로 말하자면, 변수를 추가하면 거의 항상 초기 계수가 변경됩니다.

실제로 이것은 본질적으로 Simpson 역설 의 원인이며 , 공변량이 생략되어 계수가 바뀔 수 있으며 역 부호조차도 변할 수 있습니다.

그렇게되지 않기 위해서는 새로운 변수가 이전 변수와 직교해야합니다. 이것은 종종 설계된 실험에서 발생하지만 독립 변수의 패턴이 계획되지 않은 데이터에서는 거의 발생하지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.