변수 순서가 선형 회귀에서 중요합니까?


9

두 변수 ( 과 ) 사이의 상호 작용을 조사 하고 있습니다. 와 이러한 변수 사이에는 많은 선형 상관 관계가 있습니다. 문제의 본질에서 인과 관계에 대해 아무 말도 할 수 없습니다 ( 이 유발 하는지 또는 다른 방법으로). 특이 치를 탐지하기 위해 회귀선과의 편차를 연구하고 싶습니다. 이를 위해 의 함수로 의 선형 회귀를 만들 거나 다른 방법으로 만들 수 있습니다. 가변 순서 선택이 결과에 영향을 줄 수 있습니까?x1x2r>0.9x1x2x1x2


특이 치를 검색 할 때는 먼저 및 에 대해 종속 변수를 회귀 분석 하고 특이 치를 찾아야합니다. x1x2
schenectady

특이 치를 찾는 것이 당신의 수사 대상입니까? 그렇다면 및 에 대해 종속 변수를 먼저 회귀 한 다음 이상치 테스트를 수행해야합니다. 가능한 원인을 찾으면 설계된 실험 수행을 고려해야합니다. 실험의 목적이 두 개의 독립 변수 사이의 관계를 찾는 것이라면 수집 된 데이터의 발생 상황을 살펴 보는 것이 속임수는 아닙니다. x1x2
schenectady

특이 치의 의미가 명확하지 않습니다. 데이터에 특이 치가있는 경우 회귀선 계산에 영향을 미칩니다. 왜 과 동시에 특이 치를 찾고 있습니까? x1x2
DQdlM

@schenectady 코멘트에 LaTeX에 $$를 사용하십시오.

답변:


3

그것은 실제로 가능합니다 (실제로 데이터에 대한 가정과 관련하여도 중요합니다-공변량이 주어진 결과의 분포에 대해서만 가정합니다). 이런 관점에서 "역 예측 분산"과 같은 용어를 찾아 볼 수 있습니다. 어느 쪽이든, 선형 회귀는 인과 관계에 대해 아무 것도 말하지 않습니다! 기껏해야 신중한 디자인을 통해 인과 관계에 대해 말할 수 있습니다.


3

사례를 대칭으로 만들기 위해 두 변수의 차이를 회귀시킬 수 있습니다 (Δx)와 평균값 비교.


3

표준 회귀는 점과 선 사이의 수직 거리를 최소화하므로 두 변수를 전환하면 수평 거리가 최소화됩니다 (같은 산점도 제공). 다른 옵션 (여러 이름으로 표시)은 수직 거리를 최소화하는 것입니다. 이는 기본 구성 요소를 사용하여 수행 할 수 있습니다.

차이점을 보여주는 R 코드는 다음과 같습니다.

library(MASS)

tmp <- mvrnorm(100, c(0,0), rbind( c(1,.9),c(.9,1)) )

plot(tmp, asp=1)

fit1 <- lm(tmp[,1] ~ tmp[,2])  # horizontal residuals
segments( tmp[,1], tmp[,2], fitted(fit1),tmp[,2], col='blue' )
o <- order(tmp[,2])
lines( fitted(fit1)[o], tmp[o,2], col='blue' )

fit2 <- lm(tmp[,2] ~ tmp[,1])  # vertical residuals
segments( tmp[,1], tmp[,2], tmp[,1], fitted(fit2), col='green' )
o <- order(tmp[,1])
lines( tmp[o,1], fitted(fit2)[o], col='green' )

fit3 <- prcomp(tmp)
b <- -fit3$rotation[1,2]/fit3$rotation[2,2]
a <- fit3$center[2] - b*fit3$center[1]
abline(a,b, col='red')
segments(tmp[,1], tmp[,2], tmp[,1]-fit3$x[,2]*fit3$rotation[1,2], tmp[,2]-fit3$x[,2]*fit3$rotation[2,2], col='red')

legend('bottomright', legend=c('Horizontal','Vertical','Perpendicular'), lty=1, col=c('blue','green','red'))

특이 치를 찾으려면 기본 성분 분석 결과를 플롯하면됩니다.

당신은 또한 볼 수 있습니다 :

Bland and Altman (1986), 두 가지 측정 방법 사이의 합의를 평가하기위한 통계 방법. 란셋, 307-310 페이지


0

x1 및 x2 변수는 동일 선상에 있습니다. 다중 공선 성이 존재하는 경우 모수 추정값은 여전히 ​​편차가 없지만 변이가 큽니다. 즉 모수 추정값의 유의성에 대한 유추가 유효하지 않으며 예측에 신뢰 구간이 큽니다.

모수 추정치의 해석도 어렵다. 선형 회귀 프레임 워크에서 x1의 모수 추정값은 모형의 다른 모든 외생 변수가 일정하게 유지 될 때 x1의 단위 변화에 대한 Y의 변화입니다. 귀하의 경우 x1과 x2는 서로 관련이 있으며 x1이 변경 될 때 x2를 일정하게 유지할 수 없습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.