3 개의 변수로 구성된 다 변수 (여러 독립 변수) 회귀 분석이 있다고 가정 해보십시오. 각 변수에는 주어진 계수가 있습니다. 4 번째 변수를 도입하고 회귀를 다시 실행하기로 결정한 경우, 3 개의 원래 변수 계수가 변경됩니까?
더 광범위하게 : 다 변수 (다중 독립 변수) 회귀 분석에서 주어진 변수의 계수가 다른 변수의 계수에 영향을 받습니까?
3 개의 변수로 구성된 다 변수 (여러 독립 변수) 회귀 분석이 있다고 가정 해보십시오. 각 변수에는 주어진 계수가 있습니다. 4 번째 변수를 도입하고 회귀를 다시 실행하기로 결정한 경우, 3 개의 원래 변수 계수가 변경됩니까?
더 광범위하게 : 다 변수 (다중 독립 변수) 회귀 분석에서 주어진 변수의 계수가 다른 변수의 계수에 영향을 받습니까?
답변:
회귀 모델 (예를 복수의 파라미터 추정치 β 나 변수, 경우) 변화 할 X의 j는 인 모델에 추가된다 :
위 변수 중 하나가 서로 관련이없는 경우 새 변수를 추가해도 예상 베타는 변경되지 않습니다. 그들은에 상관 있는지 유의 인구 (즉, , 또는 ρ ( X J , Y ) = 0 ) 무관하다. 중요한 것은 두 샘플 상관 이 정확히 0이라는 것 입니다. 변수가 설계에 의해 상관되지 않도록 조작 된 실험 데이터로 작업하지 않는 한 실제로는 실제로는 그렇지 않습니다.
매개 변수가 변경되는 양은 그다지 의미가 없을 수도 있습니다 (적어도 부분적으로 이론에 따라 다름). 또한, 그들이 바꿀 수있는 양은 위의 두 상관 관계의 크기의 함수입니다.
다른 관점에서,이 현상을 "다른 변수의 계수에 의해 영향을받는 주어진 변수의 계수"로 생각하는 것은 실제로 옳지 않다. 서로 영향을주는 것은 베타 가 아닙니다 . 이 현상은 통계 소프트웨어가 기울기 파라미터를 추정하는 데 사용하는 알고리즘의 자연스러운 결과입니다. 가 X i 와 X j 모두에 의해 발생 하여 서로 상관 되는 상황을 상상해보십시오 . X i 만 모형에있는 경우 X j 로 인한 Y 의 변동 중 일부는 X i에 부적절하게 기인합니다.. 이는 값 이 바이어스 됨을 의미합니다 . 이를 생략 된 변수 바이어스 라고 합니다 .
수학적으로 계수가 변경되지는 않지만 모든 독립 변수가 서로 독립적이더라도 실제 데이터에는 전혀 변화가 없을 것 같습니다. 그러나이 경우 변경 (절편 이외)은 0이됩니다.
set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)
그러나 현실 세계에서 독립 변수는 종종 서로 관련이 있습니다. 이 경우 방정식에 4 번째 변수를 추가하면 다른 계수가 변경 될 수 있습니다.
그런 다음 가능한 상호 작용이 있습니다 .... 그것은 또 다른 질문입니다.
일반적으로 말하자면, 변수를 추가하면 거의 항상 초기 계수가 변경됩니다.
실제로 이것은 본질적으로 Simpson 역설 의 원인이며 , 공변량이 생략되어 계수가 바뀔 수 있으며 역 부호조차도 변할 수 있습니다.
그렇게되지 않기 위해서는 새로운 변수가 이전 변수와 직교해야합니다. 이것은 종종 설계된 실험에서 발생하지만 독립 변수의 패턴이 계획되지 않은 데이터에서는 거의 발생하지 않습니다.
multivariable
여러 독립 변수 ( "다중 회귀") 또는 다수의 종속 변수 ( "다변량 회귀"또는 "MAN을 (C) OVA")을 의미 당신은?