x의 y와 x의 y에 대한 선형 회귀의 차이점은 무엇입니까?

97

pearson (x, y) 또는 pearson (y, x)을 계산하든 x와 y의 Pearson 상관 계수는 동일합니다. 이것은 주어진 x 또는 x 주어진 y에 대해 y의 선형 회귀를 수행하는 것이 동일해야 함을 시사하지만, 그렇지 않다고 생각합니다.

관계가 대칭이 아닐 때 누군가가 밝힐 수 있습니까? 그리고 그것이 피어슨 상관 계수와 어떻게 관련이 있습니까?

— 사용자
소스

1

때문에 모든 상관 행렬은 대칭 입니다. 이것이 사실인지 확인하기 위해 수학을 연습하는 것이 좋습니다. 와 사이의 관계 (또는 관심있는 변수가 무엇이든)가 우선적으로 대칭이 아닌 경우 다른 분석 방법을 살펴 보는 것이 좋습니다.

c o v (x, y) = c o v (y, x)

$\mathrm{cov}\left(x,y\right)=\mathrm{cov}\left(y,x\right)$

x

$x$

y

$y$

— Phillip Cloud

14

간단한 선형 회귀 분석에서 관련 질문, 스위칭 응답의 영향 및 설명 변수에 대한 흥미로운 점이 있습니다.

— chl

159

이것을 생각하는 가장 좋은 방법 은 세로 축에 가 있고 가로 축이 나타내는 점들의 산점도를 상상하는 것 입니다. 이 프레임 워크가 주어지면 모호한 점이 있거나 타원으로 길어질 수있는 점 구름이 보입니다. 회귀 분석에서하려는 것은 '최적 선'이라고하는 것을 찾는 것입니다. 그러나 이것은 간단 해 보이지만 '최상의'의 의미를 알아 내야합니다. 즉, 한 줄이 좋거나 한 줄이 다른 줄보다 낫다는 것을 정의해야합니다. 손실 함수를 규정해야합니다 $y$ $x$ . 손실 함수는 우리에게 무언가 '나쁜'방법을 말할 수있는 방법을 제공합니다. 따라서이를 최소화 할 때 우리는 가능한 한 '좋은'라인을 만들거나 '최상의'라인을 찾습니다.

전통적으로 회귀 분석을 수행 할 때, 제곱 오차 의 합 을 최소화하기 위해 기울기 및 절편 추정값을 찾습니다 . 이들은 다음과 같이 정의됩니다.

S S E = \sum_{i = 1}^{N} (y_{i} - ({\hat{β}}_{0} + {\hat{β}}_{1} x_{i}))^{2}

$SSE=\sum_{i=1}^N(y_i-(\hat\beta_0+\hat\beta_1x_i))^2$

산점도 측면에서 이는 관측 된 데이터 점과 선 사이의 ( 제곱 된) 수직 거리 를 최소화하고 있음을 의미 합니다.

여기에 이미지 설명을 입력하십시오

반면에 를 로 회귀시키는 것은 완벽하게 합리적 이지만,이 경우에는 를 세로 축에 넣는 식 입니다. (와 같이 우리가 플롯을 유지하는 경우 회귀, 횡축) 상 (와 상기 식의 다소 적응 버전하여 다시 와 전환)을 저희의 합을 최소화 될 수 있다는 것을 의미 수평 거리 $x$ $y$ $x$ $x$ $x$ $y$ $x$ $y$ 관측 된 데이터 점과 선 사이. 이것은 매우 비슷하게 들리지만 완전히 같은 것은 아닙니다. (이를 인식하는 방법은 두 가지 방법 모두를 수행 한 다음 한 매개 변수 추정값을 대수적으로 다른 조건으로 변환하는 것입니다. 첫 번째 모델과 두 번째 모델의 재 배열 된 버전을 비교하면 쉽게 알 수 있습니다. 동일하지 않습니다.)

여기에 이미지 설명을 입력하십시오

누군가가 우리에게 점이 그려진 그래프 용지를 건네 주면 직관적으로 그리는 동일한 선을 만들 수는 없습니다. 이 경우 중심을 직선으로 직선을 그리지 만 수직 거리를 최소화하면 약간 더 평평한 (즉, 경사가 더 얕음) 선이 생성되고 수평 거리를 최소화하면 약간 가파른 선이 생성 됩니다.

상관 관계는 대칭입니다. 로와 상관 로서 함께 . 그러나 Pearson 곱-모멘트 상관은 회귀 컨텍스트 내에서 이해 될 수 있습니다. 상관 계수 은 두 변수가 먼저 표준화 되었을 때 회귀선의 기울기입니다 . 즉, 먼저 각 관측치에서 평균을 빼고 차이를 표준 편차로 나눕니다. 데이터 포인트의 클라우드는 이제 원점을 중심으로되고, 기울기는 당신이 퇴행 여부 같은 것 에 또는 위에 $x$ $y$ $y$ $x$ $r$ $y$ $x$ $x$ $y$ (하지만 아래 @DilipSarwate의 의견을 참고하십시오).

여기에 이미지 설명을 입력하십시오

자, 왜 이것이 문제가됩니까? 전통적인 손실 함수를 사용하여 모든 오류가 변수 중 하나 에 만 있음을 말합니다 (viz., ). 즉, 우리는 가 오류없이 측정되고 우리가 관심있는 값 세트를 구성한다고 말하지만 에는 샘플링 오류가 있습니다. $y$ $x$ $y$ . 이것은 대화를하는 것과는 매우 다릅니다. 이것은 흥미로운 역사적 사건에서 중요했습니다. 미국의 70 년대 후반과 80 년대 초에 직장에서 여성에 대한 차별이 있었으며, 회귀 분석으로 뒷받침되었습니다. , 자격, 경험 등)은 평균적으로 남성보다 적게 지급되었습니다. 비평가들 (혹은 철저한 사람들)은 이것이 사실이라면 남자들과 똑같이 돈을 지불 한 여성들은 더 높은 자격을 갖추어야한다고 주장했지만, 이것이 확인되었을 때 결과는 '유의 한'것으로 밝혀졌다 한 가지 방법으로 평가했지만, 다른 방법으로 확인했을 때 '유의적인'것이 아니기 때문에 모든 사람이 어지러운 것을 던졌습니다. 여기를 참조 하십시오 문제를 해결하려는 유명한 논문이 있습니다.

(나중에 업데이트 됨) 다음은 시각적 대신 수식을 통해 주제에 접근하는 다른 방법입니다.

단순 회귀선의 기울기 공식은 채택 된 손실 함수의 결과입니다. 표준 일반 최소 제곱 손실 함수 (위에 표시되지 않음)를 사용하는 경우 모든 소개 교과서에 표시되는 경사에 대한 공식을 도출 할 수 있습니다. 이 공식은 다양한 형태로 제공 될 수 있습니다. 그중 하나를 기울기에 대한 '직관적 인'공식이라고합니다. 당신이 회귀하는 상황 모두에 대해이 양식을 고려 에 및 위치를 회귀하는 에 : $y$ $x$ $x$ $y$

\overset{y on x}{\overset{⏞}{{\hat{β}}_{1} = \frac{Cov (x, y)}{Var (x)}}} \overset{x on y}{\overset{⏞}{{\hat{β}}_{1} = \frac{Cov (y, x)}{Var (y)}}}

$\overbrace{\hat\beta_1=\frac{\text{Cov}(x,y)}{\text{Var}(x)}}^{y\text{ on } x}~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\overbrace{\hat\beta_1=\frac{\text{Cov}(y,x)}{\text{Var}(y)}}^{x\text{ on }y}$ 지금, 나는 그것을하지 않는 한 이러한 동일하지 않을 것이라는 점을 분명 희망 동일 . 분산 이 같으면 (예를 들어, 변수를 먼저 표준화했기 때문에) 표준 편차도 같으므로 분산도 . 이 경우, 은 Pearson 's 과 동일합니다. 이는 원칙에 의해 동일합니다 :

Var (x)

$\text{Var}(x)$

Var (y)

$\text{Var}(y)$

SD (x) SD (y)

$\text{SD}(x)\text{SD}(y)$

{\hat{β}}_{1}

$\hat\beta_1$

r

$r$

\overset{correlating x with y}{\overset{⏞}{r = \frac{Cov (x, y)}{SD (x) SD (y)}}} \overset{correlating y with x}{\overset{⏞}{r = \frac{Cov (y, x)}{SD (y) SD (x)}}}

$\overbrace{r=\frac{\text{Cov}(x,y)}{\text{SD}(x)\text{SD}(y)}}^{\text{correlating }x\text{ with }y}~~~~~~~~~~~~~~~~~~~~~~~~~~~\overbrace{r=\frac{\text{Cov}(y,x)}{\text{SD}(y)\text{SD}(x)}}^{\text{correlating }y\text{ with }x}$

— 궁
소스

2

손실 함수 최소화에 대한 언급은 +1입니다. 수직 또는 수평 거리에 대한 대안은 각각 다른 회귀선을 생성하는 선 또는 사각형 영역에 수직 거리를 사용하는 것을 포함합니다.

— Henry

7

나는 "경사가 를 회귀 시키 든 를 에 회귀하든 상관없이"기울기가 같을 것이라고 생각하지 않습니다 . 규칙이 가로 축에 를, 세로 축에 를 플롯하는 것이 올바른 경우 입니다. 이 경우, 경사는 서로 의 역수 입니다. 가로 축에서 독립 변수와 세로 축에서 종속 변수의 규칙을 따르면, 경사는 어느 쪽이든 동일합니다. 그러나이 규칙에서는 수직 거리 대 수평 거리 설명이 적용되지 않습니다. 그것은 항상 라인에서 지점의 수직 거리.

y

$y$

x

$x$

x

$x$

y

$y$

x

$x$

y

$y$

— Dilip Sarwate

4

@DilipSarwate, 당신이 말하는 것은 사실입니다. "수직"및 "수평"이라는 용어를 사용하는 내 요점은 오류가 $y$ 샘플링 오류 또는 샘플링 오류로 이해된다는 아이디어를 시각적으로 명확하게하는 것입니다 . 수직 축에 를 플로팅 하고 에 회귀 하면 최소화 된 거리는 수직이되지만 최소화 된 오차 는 여전히 샘플링 오차가됩니다 . 내 대답이 충분히 명확하지 않을 수 있습니다. 더 나은 방법을 생각할 수 있으면 편집 할 수 있습니다.

$x$

x

$x$

x

$x$

y

$y$

x

$x$

— gung

1

상관 관계의 경우 점과 선 사이의 직교 거리가 최소화되고 있다고 말할 수 있습니까? (선이 점에서 "회귀"선으로 이동하여 직교 하는 선 을 의미합니다)

— vonjd

1

피어슨의 상관 관계는 @vonjd와 맞지 않습니다. 데이터가 처음 표준화되었을 때 적합 된 최소 제곱 선의 기울기와 같다는 것이 밝혀졌습니다. 변수가 2 개이고 데이터가 먼저 표준화 된 첫 번째 주성분은 직교 거리를 최소화하는 일종의 적합 선입니다. HTH

— gung

12

R코드와 출력으로 답변을 설명하겠습니다 .

먼저 y평균이 5이고 SD가 1 인 랜덤 정규 분포를 구성합니다 .

y <- rnorm(1000, mean=5, sd=1)

다음으로, 의도적 2 랜덤 정규 분포 생성 x단지 5 배의 값으로하고, y각각을 y:

x <- y*5

디자인, 우리는 완벽한 상관 관계가 x와를 y:

cor(x,y)
[1] 1
cor(y,x)
[1] 1

우리가 회귀 할 때, 우리는 관한 기능을 찾고 x하고 y있으므로 회귀 계수의 결과가 우리가 종속 변수 및 저희는 독립 변수로서 사용으로 사용되는 하나에 의존한다. 이 경우 무작위 변형이없는 x함수를 만들었으므로 인터셉트에 맞지 않습니다 y.

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5

따라서 회귀는 우리에게 그 y=0.2x와 x=5y그에 상응하는 것을 알려줍니다 . 상관 계수는 단순히 x와 사이의 단위 변경 수준이 정확히 일치한다는 것을 보여 y주므로 (예를 들어 1 단위 증가는 y항상 0.2 단위 증가 x합니다.

— 미셸
소스

6

Pearson의 상관 관계가 x에 대해 y에 대한 회귀를 수행하든 y에 대해 y에 대한 회귀를 수행하든 상관없이 동일하기 때문에 동일한 선형 회귀를 얻을 수 있습니다. 약간 부정확하며 실제로 발생하는 내용을 이해하는 데 사용할 수 있습니다.

이것은 우리가 회귀에서 얻으려고하는 선의 방정식입니다.

해당 선의 기울기에 대한 방정식은 Pearson의 상관 관계에 의해 결정됩니다.

이것은 피어슨의 상관 관계에 대한 방정식입니다. 우리가 x에 대해 y를 회귀하거나 x에 대해 y를 회귀하는지 여부는 동일합니다.

그러나 기울기에 대한 두 번째 방정식을 다시 살펴보면 피어슨의 상관 관계가 해당 방정식의 유일한 용어는 아님을 알 수 있습니다. x에 대해 y를 계산하는 경우 y의 표본 표준 편차를 x의 표본 표준 편차로 나눈 값도 있습니다. y에 대한 x의 회귀를 계산하려면이 두 항을 뒤집어 야합니다.

— 상당히 살아남을
소스

4

이와 같은 질문에서는 기술적 인 문제에 쉽게 도달 할 수 있으므로 다음과 같은 질문을하는 스레드 제목의 질문에 특별히 초점을 맞추고 싶습니다 .y는 x의 y와 x의 y에 대한 선형 회귀의 차이점은 무엇입니까? ?

인적 자본 이론 의 (간체 화 된) 계량 모델을 잠시 생각해보십시오 (링크는 Nobel Laureate Gary Becker의 기사로 연결됨). 형식으로 모델을 지정한다고 가정하겠습니다. 이 모델은 임금과 교육의 인과 관계로 해석 될 수 있습니다. 중요하게,이 맥락에서 인과 관계는 인과 관계가 교육에서 임금으로 진행되는 방향을 의미하며 다른 방향으로 나아가는 것은 아닙니다. 이것은 모델이 공식화 된 방식에 내포되어 있습니다. 종속 변수는 임금이고 독립 변수는 교육 기간이다.

wages = b_{0} + b_{1} years of education + error

$\begin{equation} \text{wages} = b_{0} + b_{1}~\text{years of education} + \text{error} \end{equation}$

이제 계량 적 방정식을 반대로 바꾸면 (즉, x에서 y를 x에서 y로 변경) 모형이 생태 학적 방정식의 공식에 내포 된 것은 우리가 인과 관계의 방향이 임금에서 교육에 이르는 것이라고 말하고 있습니다.

years of education = b_{0} + b_{1} wages + error

$\begin{equation} \text{years of education} = b_{0} + b_{1}~\text{wages} + \text{error} \end{equation}$

나는 당신이 이것과 같은 더 많은 예제를 생각할 수 있다고 확신합니다 (경제학의 영역 밖에서도). 보시다시피, y의 회귀에서 x의 x로 y에서 y로 전환하면 모델의 해석이 크게 바뀔 수 있습니다.

따라서 질문에 대한 대답 은 다음과 같습니다. x의 y와 x의 y에 대한 선형 회귀의 차이점은 무엇입니까? 우리는 회귀 방정식 의 해석 이 x에 y가 아닌 x에 y를 회귀하면 변화 한다고 말할 수 있습니다 . 소리 해석이있는 모델은 이해가 안되거나 전혀 이해되지 않는 모델로 빠르게 전환 될 수 있기 때문에이 점을 간과해서는 안됩니다.

— 그레엄 월시
소스

3

이 주제에 대해 매우 흥미로운 현상이 있습니다. x와 y를 교환 한 후 회귀 계수는 변경되지만 계수에 대한 t- 통계량 / F- 통계량 및 유의 수준은 변하지 않습니다. 이것은 다중 회귀에서도 마찬가지이며, 여기서 우리는 y를 독립 변수 중 하나와 교환합니다.

F- 통계량과 (부분) 상관 계수 사이의 미세한 관계 때문입니다. 이러한 관계는 선형 모델 이론의 핵심에 실제로 영향을 미칩니다 .이 결론에 대한 자세한 내용은 다음 과 같습니다.

— 프리 코프
소스

다음과 같은 스레드가 흥미롭고 혼란 스러울 수 있습니다. 그룹화 예측 변수가 포함 된 회귀 분석에서 X 및 Y 교환 .

— gung

2

"y와 x의 교환이 p에 영향을 미치지 않는 이유"는 더 이상 여기에 없습니다. 다시 추가 하시겠습니까?

— JetLag

1

@gung의 훌륭한 답변으로 확장 :

단순한 선형 회귀 피어슨의 절대 값 애즈 알 수있는 두 경사면의 기하 평균 우리 퇴행 경우 우리가 구 에 및 에 : 각각 우리는 얻을 수 직접 사용 또는 $r$ $y$ $x$ $x$ $y$

\sqrt{{\hat{β}}_{1}_{y o n x} \cdot {\hat{β}}_{1}_{x o n y}} = \sqrt{\frac{Cov (x, y)}{Var (x)} \cdot \frac{Cov (y, x)}{Var (y)}} = \frac{| Cov (x, y) |}{SD (x) \cdot SD (y)} = | r |

$\sqrt{{\hat{\beta}_1}_{y\,on\,x} \cdot {\hat{\beta}_1}_{x\,on\,y}} = \sqrt{\frac{\text{Cov}(x,y)}{\text{Var}(x)} \cdot \frac{\text{Cov}(y,x)}{\text{Var}(y)}} = \frac{|\text{Cov}(x,y)|}{\text{SD}(x) \cdot \text{SD}(y)} = |r|$

r

$r$

r = s i g n ({\hat{β}}_{1}_{y o n x}) \cdot \sqrt{{\hat{β}}_{1}_{y o n x} \cdot {\hat{β}}_{1}_{x o n y}}

$r = sign({\hat{\beta}_1}_{y\,on\,x}) \cdot \sqrt{{\hat{\beta}_1}_{y\,on\,x} \cdot {\hat{\beta}_1}_{x\,on\,y}}$

r = s i g n ({\hat{β}}_{1}_{x o n y}) \cdot \sqrt{{\hat{β}}_{1}_{y o n x} \cdot {\hat{β}}_{1}_{x o n y}}

$r = sign({\hat{\beta}_1}_{x\,on\,y}) \cdot \sqrt{{\hat{\beta}_1}_{y\,on\,x} \cdot {\hat{\beta}_1}_{x\,on\,y}}$

흥미롭게도 AM-GM 부등식 에 따르면 두 경사 계수의 산술 평균의 절대 값이 Pearson 의 절대 값보다 크거나 같습니다 . $r$

| \frac{1}{2} \cdot ({\hat{β}}_{1}_{y o n x} + {\hat{β}}_{1}_{x o n y}) | \geq \sqrt{{\hat{β}}_{1}_{y o n x} \cdot {\hat{β}}_{1}_{x o n y}} = | r |

$|\frac{1}{2} \cdot ({\hat{\beta}_1}_{y\,on\,x} + {\hat{\beta}_1}_{x\,on\,y})| \geq \sqrt{{\hat{\beta}_1}_{y\,on\,x} \cdot {\hat{\beta}_1}_{x\,on\,y}} = |r|$

— statmerkur
소스

1

두 가지 다른 최적화 문제를 해결하기 때문에 관계는 대칭이 아닙니다. 다음 문제를 해결하는 것으로 쓸 수 있습니다. $\textbf{ Doing regression of $y$ given $x$}$

min_{b} E (Y - b X)^{2}

$\min_b \mathbb E(Y - bX)^2$

반면 : 는 다음과 같이 다시 쓸 수 있습니다. $\textbf{doing regression of $x$ given $y$}$

min_{b} E (X - b Y)^{2}

$\min_b \mathbb E(X - bY)^2$

min_{b} \frac{1}{b^{2}} E (Y - b X)^{2}

$\min_b \frac{1}{b^2} \mathbb E(Y - bX)^2$

또한 서로 다른 두 가지 문제가 동일한 솔루션을 가질 수 있다는 점에 유의해야합니다.

— SiXUlm
소스

1

이 정확하지만 - 그리고 이러한 관찰 주셔서 감사합니다 - 당신은 당신의 독자가 걸려 떠나이 두 가지에 대한 솔루션을 왜 설명 할 수 찾고 문제는 반드시 다른가요?

— whuber

1

당신이 올바른지. 실제로 나는 그것에 대해 생각했지만 두 가지 솔루션이 왜 다른지 설명하는 간단한 (수학적이 아닌) 방법을 찾을 수 없었 두 가지 문제 를 가능한 한 비슷하게 만들려고했습니다 . 여기서는 다른 관점을 제공하려고합니다.

look

$\textit{look}$

— SiXUlm

마지막 줄은 중간 줄과 어떻게 다릅니 까? 1 / b ^ 2를 곱하면 E (X-Yb) ^ 2가 아니라 E (X-Y / b) ^ 2가됩니다.

— Austin Shin

@AustinShin은 실제로 여기 조금 속였습니다. 가운데 줄에서 를 꺼내고 변수 를 변경 하면 마지막 줄이 표시됩니다.

b

$b$

b := 1 / b

$b: = 1/b$

— SiXUlm

+1 : 지금 당신은 분명히 요점을 지적했습니다!

— whuber

0

단순 이변 량 회귀 분석의 경우 선형 상관 계수와 R- 제곱이 두 방정식에 대해 동일하다는 것이 사실입니다. 그러나 기울기는 r Sy / Sx 또는 r Sx / Sy이며 r = 1이 아닌 한 서로의 역수는 아닙니다.

— 사용자 175531
소스

1

"... 또는 "... 또는 더 간결

- 1

$-1$

r^{2} = 1

$r^2=1$

— 해지려면

-7

회귀의 기본 개념은 '원인과 결과'또는 '독립적이고 의존적'일 수 있습니다. X 축에 독립 변수를, Y 축에 종속 변수를 배치하는 일반적인 방법은 Y = mX + c로 표시됩니다. 기울기를 m (X on Y) 또는 (Y on X)으로, 회귀를 (X on Y) 또는 (Y on X)로 표시할지 여부 그것은 두 가지 방식으로 처리되므로 좋지 않으며 명확해야합니다. 모델러는 종종 산점도를 사용하여 시뮬레이션 된 시리즈가 관측 된 시리즈와 일치하는지 판단합니다. 회귀선 사용은 피할 수 없습니다. 여기에는 원인이 없습니다. 이 필요성에 의해 스레드가 제기 한 음소거 질문이 나타납니다. 간단히 말해서, 정상적인 회귀 분석을 호출하는 방법을 명확히하십시오 : X on Y; 또는 X의 Y?는 원인에 대한 답변을 넘어서고 있습니다. 메인 스레드에 대한 답변이 아닙니다. 그러나 비슷한 질문입니다.

— 란짓 쿠마르
소스

6

-1 일관되지 않은 것 외에도,이 답변은 최선의 답변에서 그렇게 잘 설명 된 핵심 아이디어를 생략합니다 . 데이터의 변동 확률 모델은 회귀의 의미 여부를 결정하고 어떤 변수가 종속 변수로 간주 될 수 있는지 결정합니다.

— whuber

이 응답자는 관례적인 라벨링 측면에서 다소 명확하지 않은 제목 질문에 대한 한 가지 해석을 반복하고있을 수 있습니다. y = mx + b 형식의 문제의 경우 일반적으로 관계를 "y는 x에서 회귀"(예) 또는 "x는 y에서 회귀"(아니오)로 설명합니까? 용어 질문은 stats.stackexchange.com/questions/207425/… 에서 답변됩니다 .

— InColorado