간단한 선형 회귀 분석에서 스위칭 응답 및 설명 변수의 효과


48

와 사이 에 과 같은 "true"관계가 존재한다고 가정 해 봅시다 . 여기서 와 는 상수이고 은 iid 일반 노이즈입니다. 그 R 코드에서 무작위로 데이터를 생성 한 다음과 같은 모델을 적합 하게 만들면 분명히 와 대한 합리적인 추정치를 얻습니다 .yxy=ax+b+ϵabϵx <- 1:100; y <- ax + b + rnorm(length(x))y ~ xab

(x ~ y)그러나에서와 같이 변수의 역할을 전환 한 다음 에 대한 결과를 의 함수 로 다시 쓰면 결과 기울기는 항상 회귀로 추정 한 것보다 가파 릅니다 (더 음수 또는 양수) . 나는 그것이 왜 그런지 정확히 이해하려고 노력하고 있으며 누군가가 저에게 무슨 일이 일어나고 있는지 직감을 줄 수 있다면 감사하겠습니다.yxy ~ x


1
그것은 사실이 아닙니다. 아마도 당신은 당신의 데이터에서 그것을보고있을 것입니다. 이 코드를 붙여 넣으십시오. y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); R에 여러 번 들어가면 두 가지 방법으로 진행됩니다.
매크로

그것은 내가 설명했던 것과 조금 다릅니다. 귀하의 예에서 y는 전혀 x의 함수가 아니므로 실제로 "경사"(내 예에서는 'a')가 없습니다.
Greg Aponte

lm (y ~ x)는 모형 을 최소 제곱에 (오류가 iid가 정상일 때 ML 추정과 동일). 경사가 있습니다. y=β0+β1x+ε
매크로

2
귀하의 질문은 stats.stackexchange.com/questions/13126stats.stackexchange.com/questions/18434 에서 질문 및 답변 을 드립니다 . 그러나 나는 아직 아무도 (a) 대 회귀, (b) 대 회귀 , (c) 와 의 상관 관계 분석 , (d) 사이의 관계에 대한 간단하고 명확한 설명에 아무도 기여하지 않았다고 생각합니다 에러의 인 - 회귀 변수 및 , 및에 이변 정규 분포 피팅 (E) . 이것은 그러한 박람회에 좋은 장소 일 것입니다 :-). YXXYXYXY(X,Y)
우버

2
물론 매크로는 맞습니다 : x와 y가 문제에서 동등한 역할을하기 때문에, 어느 기울기가 더 극단적인지는 우연의 문제입니다. 그러나 기하 도형은 회귀에서 x와 y를 반전시킬 때 원래 경사 의 역수가져와야 한다는 것을 잘못 제안합니다 . x와 y가 선형 적으로 의존하는 경우를 제외하고는 결코 일어나지 않습니다. 이 질문은 이유를 묻는 것으로 해석 될 수 있습니다.
whuber

답변:


23

평면에서 데이터 점 주어지면 직선 그리겠습니다 . 우리가 예측할 경우 값으로서 의 다음 오류 인 의 제곱 오차가 있다 및 총 제곱 오차 . 우리는 물어 본다( X I , Y I ) , I = 1 , 2 , ... , N , Y = X + b를 X가 나는 + (B)의 Y를 I Y I ( Y I - Y I ) = ( Y I - X I - b ) ( y ia x ibn(xi,yi),i=1,2,ny=ax+baxi+by^iyi(yiy^i)=(yiaxib)n i = 1 ( y ia x ib ) 2(yiaxib)2 i=1n(yiaxib)2

어떤 선택 및 최소화 ?b S = n i = 1 ( y ia x ib ) 2abS=i=1n(yiaxib)2

이후 의 수직 거리 직선에서, 우리는 선으로부터 점의 수직 거리의 제곱의 합이 작게되도록 광고를 요구하고 가능한. 이제 양자의 이차 함수 와 그 최소치 달성 와 되도록 설정된다 두 번째 방정식에서 여기서 ( x i , y i ) S a b a b S(yiaxib)(xi,yi)Sabab b=1

Sa=2i=1n(yiaxib)(xi)=0Sb=2i=1n(yiaxib)(1)=0
μy=1
b=1ni=1n(yiaxi)=μyaμx
yixia=( 1μy=1ni=1nyi, μx=1ni=1nxi 는 산술 평균입니다 와 의 값 . 첫 번째 방정식으로 대체 따라서, 최소화 라인 다음과 같이 표현 될 수 및 의 최소값 은 yixiSy=ax+b=μy+((1
a=(1ni=1nxiyi)μxμy(1ni=1nxi2)μx2.
SSSmin=[(1
y=ax+b=μy+((1ni=1nxiyi)μxμy(1ni=1nxi2)μx2)(xμx),
S
Smin=[(1ni=1nyi2)μy2][(1ni=1nxi2)μx2][(1ni=1nxiyi)μxμy]2(1ni=1nxi2)μx2.

우리의 역할 교환하는 경우 와 , 선 그리기 , 그리고 값을 요청 와 이 최소화 즉 , 점에서 수평 거리의 제곱의 합 이 줄이 가능한 한 작다면xyx=a^y+b^a^b^

T=i=1n(xia^yib^)2,

x=a^y+b^=μx+((1ni=1nxiyi)μxμy(1ni=1nyi2)μy2)(yμy)
및 최소값 는 T
Tmin=[(1ni=1nyi2)μy2][(1ni=1nxi2)μx2][(1ni=1nxiyi)μxμy]2(1ni=1nyi2)μy2.

두 선 모두 점 통과 하지만 경사는 는 일반적으로 다릅니다. 실제로 @whuber가 주석에서 지적한 것처럼 모든 점 이 동일한 직선에 놓여 있으면 기울기가 동일합니다. 이것을 보려면 (μx,μy)

a=(1ni=1nxiyi)μxμy(1ni=1nxi2)μx2,  a^1=(1ni=1nyi2)μy2(1ni=1nxiyi)μxμy
(xi,yi)
a^1a=Smin(1ni=1nxiyi)μxμy=0Smin=0yi=axi+b,i=1,2,,n.

감사! abs (상관) <1은 반대의 경우에 경사가 체계적으로 가파른 이유를 설명합니다.
Greg Aponte

(+1) 그러나 나는 당신이 방금 말한 것을 그림으로 대답했습니다. 저는 기하학적 인 마음을 가지고 있습니다.
Elvis

수업 답변 (+1)
Digio

39

Dilip의 대답을 설명하기 위해 다음 그림에서

  • 검은 점은 데이터 포인트이며;
  • 왼쪽에서, 검은 선은에 의해 얻어진 회귀선이며 y ~ x, 이는 빨간 세그먼트의 길이의 제곱을 최소화하고;
  • 오른쪽에서 검은 선은로 얻은 회귀선 x ~ y으로, 빨간색 선분 길이의 제곱을 최소화합니다.

회귀선

편집 (최소 사각형 회귀)

"응답"과 "공변량"을 선택할 수있는 자연적인 방법이 없지만 두 변수가 상호 의존적이라면 와 대해 대칭적인 역할을 보존 할 수 있습니다 . 이 경우 "최소 사각형 회귀"를 사용할 수 있습니다.yx

  • 평소와 같이 쓰십시오 .Y=aX+b+ϵ
  • 나타내고 와 의 추정 조건부 그리고 조건부 ;y^i=axi+bx^i=1a(yib)YiX=xiXiY=yi
  • 최소화어느가 리드 i|xix^i||yiy^i|
    y^=sign(cov(x,y))σ^yσ^x(xx¯)+y¯.

여기에 동일한 데이터 점이있는 그림이 있습니다. 각 점에 대해 "직사각형"이 두 개의 빨간색 세그먼트 길이의 곱으로 계산되고 사각형의 합이 최소화됩니다. 이 회귀 분석의 속성에 대해 많이 알지 못하며 Google에서 많이 찾지 못합니다.

최소 직사각형


14
일부 메모 : ( 1 ) 내가 잘못 생각하지 않는 한, "최소 사각형 회귀"는 센터링 후 행렬 의 첫 번째 주요 구성 요소를 취하여 얻은 솔루션과 같습니다. 단위 분산을 갖도록 조정하고 다시 대체합니다. (계속)X=(y,x)
추기경

14
(계속). ( 2 )이 방법은 본이 "최소 사각형 회귀"의 형태에 상응하는 것을 쉽게 볼 수있다 직교하는 (또는 전체) 최소 제곱 (즉, 및 3 의) 특별한 경우 데밍 회귀 에 복용 중심 재 스케일링 벡터 . 직교 최소 제곱은 "최소 원 회귀"로 간주 될 수 있습니다. δ=1
추기경

2
@cardinal 매우 흥미로운 의견! (+1) 나는 P Legendre 의 lmodel2 R 패키지에 예시 된 바와 같이 장축 (정규선 과 모든 점 사이의 수직 거리를 최소화 함, la PCA) 또는 감소 된 장축 회귀 또는 유형 II 회귀 도 여기에 관련이 있다고 생각합니다 이러한 기법은 각 변수가 어떤 역할 (응답 또는 예측 변수)을 수행하는지 파악하기 어렵거나 측정 오류를 설명 할 때 사용되기 때문입니다.
chl

1
@chl : (+1) 예, 당신이 옳다고 생각합니다. 그리고 최소 사각형의 Wikipedia 페이지에는 같은 절차에 대한 몇 가지 다른 이름이 나열되어 있습니다. 그것은 완전한 회귀 시스템 , Universitetets Økonomiske Instituut, 1934 년 대각선 회귀 분석을 통해 적어도 R. Frisch, 통계적 합류 분석으로 거슬러 올라갑니다 .
추기경

3
나중에 참조 할 수 있도록 위키 백과 항목을 ... 읽을 때 @cardinal 내가 더 조심 했어야가 여기에있다 그림 에서 촬영 R을 사용하여 Biostatistical 설계 및 분석 M. 로건에 의해, (와일리 2010;.. 그림 8.4, P 174) Elvis의 멋진 일러스트레이션과 같이 다양한 접근 방식을 요약 한
chl

13

한 회귀에 대해 기울기가 더 작은 이유에 대한 간단한 참고 사항입니다. 두 기울기는 와 의 표준 편차 ( 및 )와 와 사이의 상관 관계 ( )의 세 가지 숫자에 따라 달라집니다 . 반응 으로 를 사용한 회귀 에는 기울기 있고 반응 으로 를 사용한 회귀 에는 기울기가 이므로 첫 번째 경사 대 두 번째의 역수에 대한 비율은 .xysxsyxyryrsysxxrsxsyr21

따라서 설명 된 분산 비율이 클수록 각 경우에서 얻은 기울기가 더 가깝습니다. 설명 된 분산의 비율은 대칭이며 단순 선형 회귀 분석에서 제곱 상관과 같습니다.


1

이것을 보는 간단한 방법은 실제 모델 인 경우 두 가지 회귀 분석을 실행하는 것입니다.y=α+βx+ϵ

  • y=ayx+byxx
  • x=axy+bxyy

그런 다음 :byx=cov(x,y)var(x)=cov(x,y)var(y)var(y)var(x)

byx=bxyvar(y)var(x)

따라서 가파른 기울기를 얻을지 여부는 비율에 따라 다릅니다 . 이 비율은 가정 된 실제 모델을 기준으로합니다.var(y)var(x)

var(y)var(x)=β2var(x)+var(ϵ)var(x)

다른 답변과 연결

이 결과를 다른 사람들의 답변과 연결할 수 있습니다. 이면 상호 적이어야한다고 말했습니다. 실제로 이고 (추정 오류 없음), 따라서 :R2=1R2=1var(ϵ)=0byx=β

R2=1byx=bxyβ2var(x)+0var(x)=bxyβ2

따라서bxy=1/β


0

입력에 잡음이있을 때 흥미로워집니다 (우리는 항상 그렇습니다. 명령이나 관찰이 완벽하지는 않습니다).

x와 y 모두에 가우시안 잡음과 함께 간단한 선형 관계 기반으로 현상을 관찰하기위한 시뮬레이션을 만들었습니다 . 다음과 같이 관찰 결과를 생성했습니다 (파이썬 코드).x=y

x = np.linspace(0, 1, n)
y = x

x_o = x + np.random.normal(0, 0.2, n)
y_o = y + np.random.normal(0, 0.2, n)

(ODR 여기에 서로 다른 결과를 확인 직교 적어도 사각형의 회귀 같은 즉, 거리 회귀) :

여기에 이미지 설명을 입력하십시오

모든 코드는 다음과 같습니다.

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd


0

회귀선은 실제 관계와 같지 않습니다 (항상)

다음과 같은 '진정한'인과 관계가있을 수 있습니다.

y=a+bx+ϵ

적합 회귀선 y ~ x또는 x ~ y인과 관계와 같은 의미는 아님


경사면 사이의보다 정확한 관계

두 개의 전환 된 단순 선형 회귀 분석 :

Y=a1+b1XX=a2+b2Y

다음과 같이 경사를 연관시킬 수 있습니다.

b1=ρ21b21b2

따라서 경사는 서로 반대 가 아닙니다 .


직관

그 이유는

  • 회귀선과 상관 관계가 반드시 일대일 인과 관계에 해당되는 것은 아닙니다 .
  • 회귀선은 조건부 확률 또는 최상의 예측과 더 직접적으로 관련됩니다.

조건부 확률은 관계의 강도와 관련이 있다고 상상할 수 있습니다. 회귀선은 이것을 반영하고 관계의 강도가 작을 때 선의 기울기가 얕거나 관계의 강도가 강할 때 가파르게 될 수 있습니다. 슬로프는 단순히 서로 반대가 아닙니다.

두 개의 변수 와 (인과적인) 선형 관계에 의해 서로 관련되어 있다면 그 관계를 완전히 뒤집는 것이 좋지 않다고 상상할 수 있습니다 주어진 값을 기반으로 를 표현하려는 경우 .XY

Y=a little bit of X+ a lot of error
XY

대신에

X=a lot of Y+ a little of error

또한 사용하는 것이 좋습니다

X=a little bit of Y+ a lot of error

각각의 회귀선이있는 다음 분포 예를 참조하십시오. 분포는 및 다변량 정규 분포입니다.Σ11Σ22=1Σ12=Σ21=ρ

예

조건부 기대 값 (선형 회귀 분석에서 얻을 수있는 값)은 다음과 같습니다.

E(Y|X)=ρXE(X|Y)=ρY

이 경우 다변량 정규 분포를 사용하면 한계 분포는X,Y

YN(ρX,1ρ2)XN(ρY,1ρ2)

따라서 변수 Y는 부품 이고 분산이 부품 소음으로 볼 수 있습니다 . 다른 방법으로도 마찬가지입니다.ρX1ρ2

상관 계수 클수록 두 선이 더 가까워집니다. 하지만 낮은 상관 관계, 덜 강한 관계는 선이 될 것입니다 덜 가파른가 (이 마찬가지입니다 모두 라인 과 )ρY ~ XX ~ Y


0

짧은 대답

단순 선형 회귀의 목표는 y변수 값이 주어지면 변수에 대한 최상의 예측을 도출하는 것입니다 x. x변수의 값이 주어지면 변수를 가장 잘 예측하려고 시도하는 것과 다른 목표 y입니다.

간단한 선형 회귀 분석은 주어진 y ~ x예측을위한 '최상의'가능한 모델을 y제공 x합니다. 따라서 모형을 x ~ y대수적으로 뒤집어 대치 한 경우 모형은 모형뿐만 아니라 최선을 다할 수 y ~ x있습니다. 그러나 "최적" 모델 과 비교 하여 모델 적합에 대한 반전 x ~ y은 일반적으로 y주어진 예측에서 더 나빠질 수 있습니다 . "반전 모델"은 다른 목표를 달성하기 위해 만들어 졌기 때문 입니다.xy ~ xx ~ y

삽화

다음과 같은 데이터 세트가 있다고 상상해보십시오.

여기에 이미지 설명을 입력하십시오

의 OLS 회귀 분석을 실행 y ~ x하면 다음 모델이 나타납니다.

y = 0.167 + 1.5*x

이렇게 y하면 관련 오류가있는 다음 예측을 수행하여 예측을 최적화 합니다.

여기에 이미지 설명을 입력하십시오

OLS 회귀 예측은 가장 오른쪽 열의 값의 합 (제곱의 합)이 가능한 한 작다는 점에서 최적입니다.

의 OLS 회귀 분석을 실행하면 x ~ y다른 모델이 나타납니다.

x = -0.07 + 0.64*y

이렇게하면 관련 오류와 함께 다음 예측을 수행하여 x 예측을 최적화합니다.

여기에 이미지 설명을 입력하십시오

다시, 이것은 가장 오른쪽 열의 값의 합이 가능한 한 작다는 점에서 최적입니다 0.071.

이제 y = 0.167 + 1.5*x대수학을 사용하여 첫 번째 모델을 반전시켜 모델을 제공한다고 상상해보십시오 x = -0.11 + 0.67*x.

그러면 다음과 같은 예측 및 관련 오류가 발생합니다.

여기에 이미지 설명을 입력하십시오

가장 오른쪽 열의 값의 합은입니다 0.074. 이는 y에서 x를 회귀하여 얻은 x ~ y모형 , 즉 모형의 해당 합보다 큽니다 . 즉, "반전 y ~ x모델"은의 OLS 모델보다 x를 예측하는 데 더 나쁜 작업을 수행하고 x ~ y있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.