간단한 선형 회귀 분석에서 스위칭 응답 및 설명 변수의 효과

48

와 사이 에 과 같은 "true"관계가 존재한다고 가정 해 봅시다 . 여기서 와 는 상수이고 은 iid 일반 노이즈입니다. 그 R 코드에서 무작위로 데이터를 생성 한 다음과 같은 모델을 적합 하게 만들면 분명히 와 대한 합리적인 추정치를 얻습니다 . $y$ $x$ $y = ax + b + \epsilon$ $a$ $b$ $\epsilon$ x <- 1:100; y <- ax + b + rnorm(length(x))y ~ x $a$ $b$

(x ~ y)그러나에서와 같이 변수의 역할을 전환 한 다음 에 대한 결과를 의 함수 로 다시 쓰면 결과 기울기는 항상 회귀로 추정 한 것보다 가파 릅니다 (더 음수 또는 양수) . 나는 그것이 왜 그런지 정확히 이해하려고 노력하고 있으며 누군가가 저에게 무슨 일이 일어나고 있는지 직감을 줄 수 있다면 감사하겠습니다. $y$ $x$ y ~ x

regression

— 그렉 아 폰테
소스

1

그것은 사실이 아닙니다. 아마도 당신은 당신의 데이터에서 그것을보고있을 것입니다. 이 코드를 붙여 넣으십시오. y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); R에 여러 번 들어가면 두 가지 방법으로 진행됩니다.

— 매크로

그것은 내가 설명했던 것과 조금 다릅니다. 귀하의 예에서 y는 전혀 x의 함수가 아니므로 실제로 "경사"(내 예에서는 'a')가 없습니다.

— Greg Aponte

lm (y ~ x)는 모형 을 최소 제곱에 (오류가 iid가 정상일 때 ML 추정과 동일). 경사가 있습니다.

y = β_{0} + β_{1} x + ε

$y = \beta_{0} + \beta_{1}x + \varepsilon$

— 매크로

2

귀하의 질문은 stats.stackexchange.com/questions/13126 및 stats.stackexchange.com/questions/18434 에서 질문 및 답변 을 드립니다 . 그러나 나는 아직 아무도 (a) 대 회귀, (b) 대 회귀 , (c) 와 의 상관 관계 분석 , (d) 사이의 관계에 대한 간단하고 명확한 설명에 아무도 기여하지 않았다고 생각합니다 에러의 인 - 회귀 변수 및 , 및에 이변 정규 분포 피팅 (E) . 이것은 그러한 박람회에 좋은 장소 일 것입니다 :-).

Y

$Y$

X

$X$

X

$X$

Y

$Y$

X

$X$

Y

$Y$

X

$X$

Y

$Y$

(X, Y)

$(X,Y)$

— 우버

2

물론 매크로는 맞습니다 : x와 y가 문제에서 동등한 역할을하기 때문에, 어느 기울기가 더 극단적인지는 우연의 문제입니다. 그러나 기하 도형은 회귀에서 x와 y를 반전시킬 때 원래 경사 의 역수 를 가져와야 한다는 것을 잘못 제안합니다 . x와 y가 선형 적으로 의존하는 경우를 제외하고는 결코 일어나지 않습니다. 이 질문은 이유를 묻는 것으로 해석 될 수 있습니다.

— whuber

23

평면에서 데이터 점 주어지면 직선 그리겠습니다 . 우리가 예측할 경우 값으로서 의 다음 오류 인 의 제곱 오차가 있다 및 총 제곱 오차 . 우리는 물어 본다 $n$ $(x_i,y_i), i = 1,2,\ldots n$ $y = ax+b$ $ax_i+b$ $\hat{y}_i$ $y_i$ $(y_i-\hat{y}_i) = (y_i-ax_i-b)$ $(y_i-ax_i-b)^2$ $\sum_{i=1}^n (y_i-ax_i-b)^2$

어떤 선택 및 최소화 ? $a$ $b$ $S =\displaystyle\sum_{i=1}^n (y_i-ax_i-b)^2$

이후 의 수직 거리 직선에서, 우리는 선으로부터 점의 수직 거리의 제곱의 합이 작게되도록 광고를 요구하고 가능한. 이제 양자의 이차 함수 와 그 최소치 달성 와 되도록 설정된다 두 번째 방정식에서 여기서 $(y_i-ax_i-b)$ $(x_i,y_i)$ $S$ $a$ $b$ $a$ $b$

\begin{aligned} \frac{\partial S}{\partial a} & = 2 \sum_{i = 1}^{n} (y_{i} - a x_{i} - b) (- x_{i}) & = 0 \\ \frac{\partial S}{\partial b} & = 2 \sum_{i = 1}^{n} (y_{i} - a x_{i} - b) (- 1) & = 0 \end{aligned}

$\begin{align*} \frac{\partial S}{\partial a} &= 2\sum_{i=1}^n (y_i-ax_i-b)(-x_i) &= 0\\ \frac{\partial S}{\partial b} &= 2\sum_{i=1}^n (y_i-ax_i-b)(-1) &= 0 \end{align*}$

b = \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - a x_{i}) = μ_{y} - a μ_{x}

$b = \frac{1}{n}\sum_{i=1}^n (y_i - ax_i) = \mu_y - a\mu_x$

μ_{y} = \frac{1}{n} \sum_{i = 1}^{n} y_{i}, μ_{x} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}

$\displaystyle \mu_y = \frac{1}{n}\sum_{i=1}^n y_i, ~ \mu_x = \frac{1}{n}\sum_{i=1}^n x_i$ 는 산술 평균입니다 와 의 값 . 첫 번째 방정식으로 대체 따라서, 최소화 라인 다음과 같이 표현 될 수 및 의 최소값 은

y_{i}

$y_i$

x_{i}

$x_i$

a = \frac{(\frac{1}{n} \sum_{i = 1}^{n} x_{i} y_{i}) - μ_{x} μ_{y}}{(\frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2}) - μ_{x}^{2}} .

$a = \frac{\left(\frac{1}{n}\sum_{i=1}^n x_iy_i\right) -\mu_x\mu_y}{ \left( \frac{1}{n}\sum_{i=1}^n x_i^2\right) -\mu_x^2}.$

S

$S$

y = a x + b = μ_{y} + (\frac{(\frac{1}{n} \sum_{i = 1}^{n} x_{i} y_{i}) - μ_{x} μ_{y}}{(\frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2}) - μ_{x}^{2}}) (x - μ_{x}),

$y = ax+b = \mu_y + \left(\frac{\left(\frac{1}{n}\sum_{i=1}^n x_iy_i\right) -\mu_x\mu_y}{ \left( \frac{1}{n}\sum_{i=1}^n x_i^2\right) -\mu_x^2}\right) (x - \mu_x),$

S

$S$

S_{min} = \frac{[(\frac{1}{n} \sum_{i = 1}^{n} y_{i}^{2}) - μ_{y}^{2}] [(\frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2}) - μ_{x}^{2}] - {[(\frac{1}{n} \sum_{i = 1}^{n} x_{i} y_{i}) - μ_{x} μ_{y}]}^{2}}{(\frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2}) - μ_{x}^{2}} .

$S_{\min} = \frac{\left[\left(\frac{1}{n}\sum_{i=1}^n y_i^2\right) -\mu_y^2\right] \left[\left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) -\mu_x^2\right] - \left[\left(\frac{1}{n}\sum_{i=1}^n x_iy_i\right) -\mu_x\mu_y\right]^2}{\left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) -\mu_x^2}.$

우리의 역할 교환하는 경우 와 , 선 그리기 , 그리고 값을 요청 와 이 최소화 즉 , 점에서 수평 거리의 제곱의 합 이 줄이 가능한 한 작다면 $x$ $y$ $x = \hat{a}y + \hat{b}$ $\hat{a}$ $\hat{b}$

T = \sum_{i = 1}^{n} (x_{i} - \hat{a} y_{i} - \hat{b})^{2},

$T = \sum_{i=1}^n (x_i - \hat{a}y_i - \hat{b})^2,$

x = \hat{a} y + \hat{b} = μ_{x} + (\frac{(\frac{1}{n} \sum_{i = 1}^{n} x_{i} y_{i}) - μ_{x} μ_{y}}{(\frac{1}{n} \sum_{i = 1}^{n} y_{i}^{2}) - μ_{y}^{2}}) (y - μ_{y})

$x = \hat{a}y+\hat{b} = \mu_x + \left(\frac{\left(\frac{1}{n}\sum_{i=1}^n x_iy_i\right) -\mu_x\mu_y}{ \left( \frac{1}{n}\sum_{i=1}^n y_i^2\right) -\mu_y^2}\right) (y - \mu_y)$ 및 최소값 는

T

$T$

T_{min} = \frac{[(\frac{1}{n} \sum_{i = 1}^{n} y_{i}^{2}) - μ_{y}^{2}] [(\frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2}) - μ_{x}^{2}] - {[(\frac{1}{n} \sum_{i = 1}^{n} x_{i} y_{i}) - μ_{x} μ_{y}]}^{2}}{(\frac{1}{n} \sum_{i = 1}^{n} y_{i}^{2}) - μ_{y}^{2}} .

$T_{\min} = \frac{\left[\left(\frac{1}{n}\sum_{i=1}^n y_i^2\right) -\mu_y^2\right] \left[\left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) -\mu_x^2\right] - \left[\left(\frac{1}{n}\sum_{i=1}^n x_iy_i\right) -\mu_x\mu_y\right]^2}{\left(\frac{1}{n}\sum_{i=1}^n y_i^2\right) -\mu_y^2}.$

두 선 모두 점 통과 하지만 경사는 는 일반적으로 다릅니다. 실제로 @whuber가 주석에서 지적한 것처럼 모든 점 이 동일한 직선에 놓여 있으면 기울기가 동일합니다. 이것을 보려면 $(\mu_x,\mu_y)$

a = \frac{(\frac{1}{n} \sum_{i = 1}^{n} x_{i} y_{i}) - μ_{x} μ_{y}}{(\frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2}) - μ_{x}^{2}}, {\hat{a}}^{- 1} = \frac{(\frac{1}{n} \sum_{i = 1}^{n} y_{i}^{2}) - μ_{y}^{2}}{(\frac{1}{n} \sum_{i = 1}^{n} x_{i} y_{i}) - μ_{x} μ_{y}}

$a = \frac{\left(\frac{1}{n}\sum_{i=1}^n x_iy_i\right) -\mu_x\mu_y}{ \left( \frac{1}{n}\sum_{i=1}^n x_i^2\right) -\mu_x^2},~~ \hat{a}^{-1} = \frac{ \left( \frac{1}{n}\sum_{i=1}^n y_i^2\right) -\mu_y^2}{\left(\frac{1}{n}\sum_{i=1}^n x_iy_i\right) -\mu_x\mu_y}$

(x_{i}, y_{i})

$(x_i,y_i)$

{\hat{a}}^{- 1} - a = \frac{S_{min}}{(\frac{1}{n} \sum_{i = 1}^{n} x_{i} y_{i}) - μ_{x} μ_{y}} = 0 \Rightarrow S_{min} = 0 \Rightarrow y_{i} = a x_{i} + b, i = 1, 2, \dots, n .

$\hat{a}^{-1} - a = \frac{S_{\min}}{\left(\frac{1}{n}\sum_{i=1}^n x_iy_i\right) -\mu_x\mu_y} = 0 \Rightarrow S_{\min} = 0 \Rightarrow y_i=ax_i+b, i=1,2,\ldots, n.$

— 디립 사르 베이트
소스

감사! abs (상관) <1은 반대의 경우에 경사가 체계적으로 가파른 이유를 설명합니다.

— Greg Aponte

(+1) 그러나 나는 당신이 방금 말한 것을 그림으로 대답했습니다. 저는 기하학적 인 마음을 가지고 있습니다.

— Elvis

수업 답변 (+1)

— Digio

39

Dilip의 대답을 설명하기 위해 다음 그림에서

검은 점은 데이터 포인트이며;
왼쪽에서, 검은 선은에 의해 얻어진 회귀선이며 y ~ x, 이는 빨간 세그먼트의 길이의 제곱을 최소화하고;
오른쪽에서 검은 선은로 얻은 회귀선 x ~ y으로, 빨간색 선분 길이의 제곱을 최소화합니다.

회귀선

편집 (최소 사각형 회귀)

"응답"과 "공변량"을 선택할 수있는 자연적인 방법이 없지만 두 변수가 상호 의존적이라면 와 대해 대칭적인 역할을 보존 할 수 있습니다 . 이 경우 "최소 사각형 회귀"를 사용할 수 있습니다. $y$ $x$

평소와 같이 쓰십시오 . $Y = aX + b + \epsilon$
나타내고 와 의 추정 조건부 그리고 조건부 ; $\hat y_i = a x_i + b$ $\hat x_i = {1\over a} (y_i - b)$ $Y_i$ $X = x_i$ $X_i$ $Y = y_i$
최소화어느가 리드 $\sum_i | x_i - \hat x_i | \cdot | y_i - \hat y_i|$ $\hat{y} = s i g n (c o v (x, y)) \frac{{\hat{σ}}_{y}}{{\hat{σ}}_{x}} (x - \bar{x}) + \bar{y} .$ $\hat y = \mathrm{sign}\left(\mathrm{cov}(x,y)\right){\hat\sigma_y \over \hat\sigma_x} (x-\overline x) + \overline y.$

여기에 동일한 데이터 점이있는 그림이 있습니다. 각 점에 대해 "직사각형"이 두 개의 빨간색 세그먼트 길이의 곱으로 계산되고 사각형의 합이 최소화됩니다. 이 회귀 분석의 속성에 대해 많이 알지 못하며 Google에서 많이 찾지 못합니다.

최소 직사각형

— 엘비스
소스

14

일부 메모 : ( 1 ) 내가 잘못 생각하지 않는 한, "최소 사각형 회귀"는 센터링 후 행렬 의 첫 번째 주요 구성 요소를 취하여 얻은 솔루션과 같습니다. 단위 분산을 갖도록 조정하고 다시 대체합니다. (계속)

X = (y, x)

$\mathbf X = (\mathbf y, \mathbf x)$

— 추기경

14

(계속). ( 2 )이 방법은 본이 "최소 사각형 회귀"의 형태에 상응하는 것을 쉽게 볼 수있다 직교하는 (또는 전체) 최소 제곱 (즉, 및 3 의) 특별한 경우 데밍 회귀 에 복용 중심 재 스케일링 벡터 . 직교 최소 제곱은 "최소 원 회귀"로 간주 될 수 있습니다.

δ = 1

$\delta = 1$

— 추기경

2

@cardinal 매우 흥미로운 의견! (+1) 나는 P Legendre 의 lmodel2 R 패키지에 예시 된 바와 같이 장축 (정규선 과 모든 점 사이의 수직 거리를 최소화 함, la PCA) 또는 감소 된 장축 회귀 또는 유형 II 회귀 도 여기에 관련이 있다고 생각합니다 이러한 기법은 각 변수가 어떤 역할 (응답 또는 예측 변수)을 수행하는지 파악하기 어렵거나 측정 오류를 설명 할 때 사용되기 때문입니다.

— chl

1

@chl : (+1) 예, 당신이 옳다고 생각합니다. 그리고 최소 사각형의 Wikipedia 페이지에는 같은 절차에 대한 몇 가지 다른 이름이 나열되어 있습니다. 그것은 완전한 회귀 시스템 , Universitetets Økonomiske Instituut, 1934 년 대각선 회귀 분석을 통해 적어도 R. Frisch, 통계적 합류 분석으로 거슬러 올라갑니다 .

— 추기경

3

나중에 참조 할 수 있도록 위키 백과 항목을 ... 읽을 때 @cardinal 내가 더 조심 했어야가 여기에있다 그림 에서 촬영 R을 사용하여 Biostatistical 설계 및 분석 M. 로건에 의해, (와일리 2010;.. 그림 8.4, P 174) Elvis의 멋진 일러스트레이션과 같이 다양한 접근 방식을 요약 한

— chl

13

한 회귀에 대해 기울기가 더 작은 이유에 대한 간단한 참고 사항입니다. 두 기울기는 와 의 표준 편차 ( 및 )와 와 사이의 상관 관계 ( )의 세 가지 숫자에 따라 달라집니다 . 반응 으로 를 사용한 회귀 에는 기울기 있고 반응 으로 를 사용한 회귀 에는 기울기가 이므로 첫 번째 경사 대 두 번째의 역수에 대한 비율은 . $x$ $y$ $s_{x}$ $s_{y}$ $x$ $y$ $r$ $y$ $r\frac{s_{y}}{s_{x}}$ $x$ $r\frac{s_{x}}{s_{y}}$ $r^2\leq 1$

따라서 설명 된 분산 비율이 클수록 각 경우에서 얻은 기울기가 더 가깝습니다. 설명 된 분산의 비율은 대칭이며 단순 선형 회귀 분석에서 제곱 상관과 같습니다.

— 확률 론적
소스

1

이것을 보는 간단한 방법은 실제 모델 인 경우 두 가지 회귀 분석을 실행하는 것입니다. $y=\alpha+\beta x+\epsilon$

$y=a_{y\sim x}+b_{y\sim x} x$
$x=a_{x\sim y}+b_{x\sim y} y$

그런 다음 : $b_{y\sim x}=\frac{cov(x,y)}{var(x)}=\frac{cov(x,y)}{var(y)}\frac{var(y)}{var(x)}$

b_{y \sim x} = b_{x \sim y} \frac{v a r (y)}{v a r (x)}

$b_{y\sim x}=b_{x\sim y}\frac{var(y)}{var(x)}$

따라서 가파른 기울기를 얻을지 여부는 비율에 따라 다릅니다 . 이 비율은 가정 된 실제 모델을 기준으로합니다. $\frac{var(y)}{var(x)}$

\frac{v a r (y)}{v a r (x)} = \frac{β^{2} v a r (x) + v a r (ϵ)}{v a r (x)}

$\frac{var(y)}{var(x)}=\frac{\beta^2 var(x) + var(\epsilon)}{var(x)}$

다른 답변과 연결

이 결과를 다른 사람들의 답변과 연결할 수 있습니다. 이면 상호 적이어야한다고 말했습니다. 실제로 이고 (추정 오류 없음), 따라서 : $R^2=1$ $R^2=1\Rightarrow var(\epsilon) = 0$ $b_{y\sim x}=\beta$

R^{2} = 1 \Rightarrow b_{y \sim x} = b_{x \sim y} \frac{β^{2} v a r (x) + 0}{v a r (x)} = b_{x \sim y} β^{2}

$R^2=1\Rightarrow b_{y\sim x}=b_{x\sim y}\frac{\beta^2 var(x) + 0}{var(x)}=b_{x\sim y}\beta^2$

따라서 $b_{x\sim y}=1/\beta$

— 마티 포
소스

0

입력에 잡음이있을 때 흥미로워집니다 (우리는 항상 그렇습니다. 명령이나 관찰이 완벽하지는 않습니다).

x와 y 모두에 가우시안 잡음과 함께 간단한 선형 관계 기반으로 현상을 관찰하기위한 시뮬레이션을 만들었습니다 . 다음과 같이 관찰 결과를 생성했습니다 (파이썬 코드). $x = y$

x = np.linspace(0, 1, n)
y = x

x_o = x + np.random.normal(0, 0.2, n)
y_o = y + np.random.normal(0, 0.2, n)

(ODR 여기에 서로 다른 결과를 확인 직교 적어도 사각형의 회귀 같은 즉, 거리 회귀) :

모든 코드는 다음과 같습니다.

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd

— 레베 스크
소스

0

회귀선은 실제 관계와 같지 않습니다 (항상)

다음과 같은 '진정한'인과 관계가있을 수 있습니다.

y = a + b x + ϵ

$y = a + bx + \epsilon$

적합 회귀선 y ~ x또는 x ~ y인과 관계와 같은 의미는 아님

경사면 사이의보다 정확한 관계

두 개의 전환 된 단순 선형 회귀 분석 :

Y = a_{1} + b_{1} X X = a_{2} + b_{2} Y

$Y = a_1 + b_1 X\\X = a_2 + b_2 Y$

다음과 같이 경사를 연관시킬 수 있습니다.

b_{1} = ρ^{2} \frac{1}{b_{2}} \leq \frac{1}{b_{2}}

$b_1 = \rho^2 \frac{1}{b_2} \leq \frac{1}{b_2}$

따라서 경사는 서로 반대 가 아닙니다 .

직관

그 이유는

회귀선과 상관 관계가 반드시 일대일 인과 관계에 해당되는 것은 아닙니다 .
회귀선은 조건부 확률 또는 최상의 예측과 더 직접적으로 관련됩니다.

조건부 확률은 관계의 강도와 관련이 있다고 상상할 수 있습니다. 회귀선은 이것을 반영하고 관계의 강도가 작을 때 선의 기울기가 얕거나 관계의 강도가 강할 때 가파르게 될 수 있습니다. 슬로프는 단순히 서로 반대가 아닙니다.

예

두 개의 변수 와 (인과적인) 선형 관계에 의해 서로 관련되어 있다면 그 관계를 완전히 뒤집는 것이 좋지 않다고 상상할 수 있습니다 주어진 값을 기반으로 를 표현하려는 경우 . $X$ $Y$

Y = a little bit of X + a lot of error

$Y = \text{a little bit of $X + $ a lot of error}$

X

$X$

Y

$Y$

대신에

X = a lot of Y + a little of error

$X = \text{a lot of $Y + $ a little of error}$

또한 사용하는 것이 좋습니다

X = a little bit of Y + a lot of error

$X = \text{a little bit of $Y + $ a lot of error}$

각각의 회귀선이있는 다음 분포 예를 참조하십시오. 분포는 및 다변량 정규 분포입니다. $\Sigma_{11} \Sigma_{22}=1$ $\Sigma_{12} = \Sigma_{21} = \rho$

조건부 기대 값 (선형 회귀 분석에서 얻을 수있는 값)은 다음과 같습니다.

\begin{matrix} E (Y | X) & = & ρ X \\ E (X | Y) & = & ρ Y \end{matrix}

$\begin{array}{} E(Y|X) &=& \rho X \\ E(X|Y) &=& \rho Y \end{array}$

이 경우 다변량 정규 분포를 사용하면 한계 분포는 $X,Y$

\begin{matrix} Y & \sim & N (ρ X, 1 - ρ^{2}) \\ X & \sim & N (ρ Y, 1 - ρ^{2}) \end{matrix}

$\begin{array}{} Y & \sim & N(\rho X,1-\rho^2) \\ X & \sim & N(\rho Y,1-\rho^2) \end{array}$

따라서 변수 Y는 부품 이고 분산이 부품 소음으로 볼 수 있습니다 . 다른 방법으로도 마찬가지입니다. $\rho X$ $1-\rho^2$

상관 계수 클수록 두 선이 더 가까워집니다. 하지만 낮은 상관 관계, 덜 강한 관계는 선이 될 것입니다 덜 가파른가 (이 마찬가지입니다 모두 라인 과 ) $\rho$ Y ~ XX ~ Y

— Sextus Empiricus
소스

0

짧은 대답

단순 선형 회귀의 목표는 y변수 값이 주어지면 변수에 대한 최상의 예측을 도출하는 것입니다 x. x변수의 값이 주어지면 변수를 가장 잘 예측하려고 시도하는 것과 다른 목표 y입니다.

간단한 선형 회귀 분석은 주어진 y ~ x예측을위한 '최상의'가능한 모델을 y제공 x합니다. 따라서 모형을 x ~ y대수적으로 뒤집어 대치 한 경우 모형은 모형뿐만 아니라 최선을 다할 수 y ~ x있습니다. 그러나 "최적" 모델 과 비교 하여 모델 적합에 대한 반전 x ~ y은 일반적으로 y주어진 예측에서 더 나빠질 수 있습니다 . "반전 모델"은 다른 목표를 달성하기 위해 만들어 졌기 때문 입니다.xy ~ xx ~ y