pearson (x, y) 또는 pearson (y, x)을 계산하든 x와 y의 Pearson 상관 계수는 동일합니다. 이것은 주어진 x 또는 x 주어진 y에 대해 y의 선형 회귀를 수행하는 것이 동일해야 함을 시사하지만, 그렇지 않다고 생각합니다.
관계가 대칭이 아닐 때 누군가가 밝힐 수 있습니까? 그리고 그것이 피어슨 상관 계수와 어떻게 관련이 있습니까?
pearson (x, y) 또는 pearson (y, x)을 계산하든 x와 y의 Pearson 상관 계수는 동일합니다. 이것은 주어진 x 또는 x 주어진 y에 대해 y의 선형 회귀를 수행하는 것이 동일해야 함을 시사하지만, 그렇지 않다고 생각합니다.
관계가 대칭이 아닐 때 누군가가 밝힐 수 있습니까? 그리고 그것이 피어슨 상관 계수와 어떻게 관련이 있습니까?
답변:
이것을 생각하는 가장 좋은 방법 은 세로 축에 가 있고 가로 축이 나타내는 점들의 산점도를 상상하는 것 입니다. 이 프레임 워크가 주어지면 모호한 점이 있거나 타원으로 길어질 수있는 점 구름이 보입니다. 회귀 분석에서하려는 것은 '최적 선'이라고하는 것을 찾는 것입니다. 그러나 이것은 간단 해 보이지만 '최상의'의 의미를 알아 내야합니다. 즉, 한 줄이 좋거나 한 줄이 다른 줄보다 낫다는 것을 정의해야합니다. 손실 함수를 규정해야합니다x. 손실 함수는 우리에게 무언가 '나쁜'방법을 말할 수있는 방법을 제공합니다. 따라서이를 최소화 할 때 우리는 가능한 한 '좋은'라인을 만들거나 '최상의'라인을 찾습니다.
전통적으로 회귀 분석을 수행 할 때, 제곱 오차 의 합 을 최소화하기 위해 기울기 및 절편 추정값을 찾습니다 . 이들은 다음과 같이 정의됩니다.
산점도 측면에서 이는 관측 된 데이터 점과 선 사이의 ( 제곱 된) 수직 거리 를 최소화하고 있음을 의미 합니다.
반면에 를 로 회귀시키는 것은 완벽하게 합리적 이지만,이 경우에는 를 세로 축에 넣는 식 입니다. (와 같이 우리가 플롯을 유지하는 경우 회귀, 횡축) 상 (와 상기 식의 다소 적응 버전하여 다시 와 전환)을 저희의 합을 최소화 될 수 있다는 것을 의미 수평 거리y x x x yy관측 된 데이터 점과 선 사이. 이것은 매우 비슷하게 들리지만 완전히 같은 것은 아닙니다. (이를 인식하는 방법은 두 가지 방법 모두를 수행 한 다음 한 매개 변수 추정값을 대수적으로 다른 조건으로 변환하는 것입니다. 첫 번째 모델과 두 번째 모델의 재 배열 된 버전을 비교하면 쉽게 알 수 있습니다. 동일하지 않습니다.)
누군가가 우리에게 점이 그려진 그래프 용지를 건네 주면 직관적으로 그리는 동일한 선을 만들 수는 없습니다. 이 경우 중심을 직선으로 직선을 그리지 만 수직 거리를 최소화하면 약간 더 평평한 (즉, 경사가 더 얕음) 선이 생성되고 수평 거리를 최소화하면 약간 가파른 선이 생성 됩니다.
상관 관계는 대칭입니다. 로와 상관 로서 함께 . 그러나 Pearson 곱-모멘트 상관은 회귀 컨텍스트 내에서 이해 될 수 있습니다. 상관 계수 은 두 변수가 먼저 표준화 되었을 때 회귀선의 기울기입니다 . 즉, 먼저 각 관측치에서 평균을 빼고 차이를 표준 편차로 나눕니다. 데이터 포인트의 클라우드는 이제 원점을 중심으로되고, 기울기는 당신이 퇴행 여부 같은 것 에 또는 위에y y x r y x x y (하지만 아래 @DilipSarwate의 의견을 참고하십시오).
자, 왜 이것이 문제가됩니까? 전통적인 손실 함수를 사용하여 모든 오류가 변수 중 하나 에 만 있음을 말합니다 (viz., ). 즉, 우리는 가 오류없이 측정되고 우리가 관심있는 값 세트를 구성한다고 말하지만 에는 샘플링 오류가 있습니다.x y. 이것은 대화를하는 것과는 매우 다릅니다. 이것은 흥미로운 역사적 사건에서 중요했습니다. 미국의 70 년대 후반과 80 년대 초에 직장에서 여성에 대한 차별이 있었으며, 회귀 분석으로 뒷받침되었습니다. , 자격, 경험 등)은 평균적으로 남성보다 적게 지급되었습니다. 비평가들 (혹은 철저한 사람들)은 이것이 사실이라면 남자들과 똑같이 돈을 지불 한 여성들은 더 높은 자격을 갖추어야한다고 주장했지만, 이것이 확인되었을 때 결과는 '유의 한'것으로 밝혀졌다 한 가지 방법으로 평가했지만, 다른 방법으로 확인했을 때 '유의적인'것이 아니기 때문에 모든 사람이 어지러운 것을 던졌습니다. 여기를 참조 하십시오 문제를 해결하려는 유명한 논문이 있습니다.
(나중에 업데이트 됨) 다음은 시각적 대신 수식을 통해 주제에 접근하는 다른 방법입니다.
단순 회귀선의 기울기 공식은 채택 된 손실 함수의 결과입니다. 표준 일반 최소 제곱 손실 함수 (위에 표시되지 않음)를 사용하는 경우 모든 소개 교과서에 표시되는 경사에 대한 공식을 도출 할 수 있습니다. 이 공식은 다양한 형태로 제공 될 수 있습니다. 그중 하나를 기울기에 대한 '직관적 인'공식이라고합니다. 당신이 회귀하는 상황 모두에 대해이 양식을 고려 에 및 위치를 회귀하는 에 : X 의 X , Y의 Y 에서 X ⏞ β 1 = COV ( X , Y )
R
코드와 출력으로 답변을 설명하겠습니다 .
먼저 y
평균이 5이고 SD가 1 인 랜덤 정규 분포를 구성합니다 .
y <- rnorm(1000, mean=5, sd=1)
다음으로, 의도적 2 랜덤 정규 분포 생성 x
단지 5 배의 값으로하고, y
각각을 y
:
x <- y*5
디자인, 우리는 완벽한 상관 관계가 x
와를 y
:
cor(x,y)
[1] 1
cor(y,x)
[1] 1
우리가 회귀 할 때, 우리는 관한 기능을 찾고 x
하고 y
있으므로 회귀 계수의 결과가 우리가 종속 변수 및 저희는 독립 변수로서 사용으로 사용되는 하나에 의존한다. 이 경우 무작위 변형이없는 x
함수를 만들었으므로 인터셉트에 맞지 않습니다 y
.
lm(y~x-1)
Call:
lm(formula = y ~ x - 1)
Coefficients:
x
0.2
lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)
Coefficients:
y
5
따라서 회귀는 우리에게 그 y=0.2x
와 x=5y
그에 상응하는 것을 알려줍니다 . 상관 계수는 단순히 x
와 사이의 단위 변경 수준이 정확히 일치한다는 것을 보여 y
주므로 (예를 들어 1 단위 증가는 y
항상 0.2 단위 증가 x
합니다.
Pearson의 상관 관계가 x에 대해 y에 대한 회귀를 수행하든 y에 대해 y에 대한 회귀를 수행하든 상관없이 동일하기 때문에 동일한 선형 회귀를 얻을 수 있습니다. 약간 부정확하며 실제로 발생하는 내용을 이해하는 데 사용할 수 있습니다.
이것은 우리가 회귀에서 얻으려고하는 선의 방정식입니다.
해당 선의 기울기에 대한 방정식은 Pearson의 상관 관계에 의해 결정됩니다.
이것은 피어슨의 상관 관계에 대한 방정식입니다. 우리가 x에 대해 y를 회귀하거나 x에 대해 y를 회귀하는지 여부는 동일합니다.
그러나 기울기에 대한 두 번째 방정식을 다시 살펴보면 피어슨의 상관 관계가 해당 방정식의 유일한 용어는 아님을 알 수 있습니다. x에 대해 y를 계산하는 경우 y의 표본 표준 편차를 x의 표본 표준 편차로 나눈 값도 있습니다. y에 대한 x의 회귀를 계산하려면이 두 항을 뒤집어 야합니다.
이와 같은 질문에서는 기술적 인 문제에 쉽게 도달 할 수 있으므로 다음과 같은 질문을하는 스레드 제목의 질문에 특별히 초점을 맞추고 싶습니다 .y는 x의 y와 x의 y에 대한 선형 회귀의 차이점은 무엇입니까? ?
인적 자본 이론 의 (간체 화 된) 계량 모델을 잠시 생각해보십시오 (링크는 Nobel Laureate Gary Becker의 기사로 연결됨). 형식으로 모델을 지정한다고 가정하겠습니다. 이 모델은 임금과 교육의 인과 관계로 해석 될 수 있습니다. 중요하게,이 맥락에서 인과 관계는 인과 관계가 교육에서 임금으로 진행되는 방향을 의미하며 다른 방향으로 나아가는 것은 아닙니다. 이것은 모델이 공식화 된 방식에 내포되어 있습니다. 종속 변수는 임금이고 독립 변수는 교육 기간이다.
이제 계량 적 방정식을 반대로 바꾸면 (즉, x에서 y를 x에서 y로 변경) 모형이 생태 학적 방정식의 공식에 내포 된 것은 우리가 인과 관계의 방향이 임금에서 교육에 이르는 것이라고 말하고 있습니다.
나는 당신이 이것과 같은 더 많은 예제를 생각할 수 있다고 확신합니다 (경제학의 영역 밖에서도). 보시다시피, y의 회귀에서 x의 x로 y에서 y로 전환하면 모델의 해석이 크게 바뀔 수 있습니다.
따라서 질문에 대한 대답 은 다음과 같습니다. x의 y와 x의 y에 대한 선형 회귀의 차이점은 무엇입니까? 우리는 회귀 방정식 의 해석 이 x에 y가 아닌 x에 y를 회귀하면 변화 한다고 말할 수 있습니다 . 소리 해석이있는 모델은 이해가 안되거나 전혀 이해되지 않는 모델로 빠르게 전환 될 수 있기 때문에이 점을 간과해서는 안됩니다.
이 주제에 대해 매우 흥미로운 현상이 있습니다. x와 y를 교환 한 후 회귀 계수는 변경되지만 계수에 대한 t- 통계량 / F- 통계량 및 유의 수준은 변하지 않습니다. 이것은 다중 회귀에서도 마찬가지이며, 여기서 우리는 y를 독립 변수 중 하나와 교환합니다.
F- 통계량과 (부분) 상관 계수 사이의 미세한 관계 때문입니다. 이러한 관계는 선형 모델 이론의 핵심에 실제로 영향을 미칩니다 .이 결론에 대한 자세한 내용은 다음 과 같습니다.
@gung의 훌륭한 답변으로 확장 :
단순한 선형 회귀 피어슨의 절대 값 애즈 알 수있는 두 경사면의 기하 평균 우리 퇴행 경우 우리가 구 에 및 에 : 각각
우리는 얻을 수 직접 사용
또는
흥미롭게도 AM-GM 부등식 에 따르면 두 경사 계수의 산술 평균의 절대 값이 Pearson 의 절대 값보다 크거나 같습니다 .
두 가지 다른 최적화 문제를 해결하기 때문에 관계는 대칭이 아닙니다. 다음 문제를 해결하는 것으로 쓸 수 있습니다.
반면 :
는 다음과 같이 다시 쓸 수 있습니다.
또한 서로 다른 두 가지 문제가 동일한 솔루션을 가질 수 있다는 점에 유의해야합니다.
단순 이변 량 회귀 분석의 경우 선형 상관 계수와 R- 제곱이 두 방정식에 대해 동일하다는 것이 사실입니다. 그러나 기울기는 r Sy / Sx 또는 r Sx / Sy이며 r = 1이 아닌 한 서로의 역수는 아닙니다.
회귀의 기본 개념은 '원인과 결과'또는 '독립적이고 의존적'일 수 있습니다. X 축에 독립 변수를, Y 축에 종속 변수를 배치하는 일반적인 방법은 Y = mX + c로 표시됩니다. 기울기를 m (X on Y) 또는 (Y on X)으로, 회귀를 (X on Y) 또는 (Y on X)로 표시할지 여부 그것은 두 가지 방식으로 처리되므로 좋지 않으며 명확해야합니다. 모델러는 종종 산점도를 사용하여 시뮬레이션 된 시리즈가 관측 된 시리즈와 일치하는지 판단합니다. 회귀선 사용은 피할 수 없습니다. 여기에는 원인이 없습니다. 이 필요성에 의해 스레드가 제기 한 음소거 질문이 나타납니다. 간단히 말해서, 정상적인 회귀 분석을 호출하는 방법을 명확히하십시오 : X on Y; 또는 X의 Y?는 원인에 대한 답변을 넘어서고 있습니다. 메인 스레드에 대한 답변이 아닙니다. 그러나 비슷한 질문입니다.