상관 관계 또는 결정 계수가 회귀선을 따르는 값의 백분율과 관련이 있습니까?


12

상관 관계 은 두 변수 사이의 선형 연관성 척도입니다. 결정 계수 는 한 변수의 변수가 다른 변수의 "설명"에 의해 얼마나 설명 될 수 있는지를 측정 한 것입니다.r 2rr2

예를 들어, 이 두 변수 사이의 상관 경우 입니다. 따라서 한 변수의 64 %가 다른 변수의 차이로 설명 될 수 있습니다. 권리?r 2 = 0.64r=0.8r2=0.64

내 질문은 예를 들어 다음 진술 중 하나가 맞습니까?

  1. 값의 64 %가 회귀선을 따릅니다.
  2. 80 %의 값이 회귀선을 따라 떨어짐

"따르다"라는 용어는 정확하지 않습니다. 적어도 일부 답변은 "정확하게 배치"된 것으로 해석되며 답변은 명확하지 않습니다 (그 아이디어는 몇 가지 특정 상황에 적합한 흥미로운 선형 연관 측정으로 이어질 수 있습니다-예를 들어 시간이 지남에 따라 소음 / 오류가없고 일부 오염 프로세스와 마찬가지로 때로는 오류가 혼합되어 오염되지 않은 데이터의 비율을 추정하고 있습니다). "정확하게 배치"이외의 것을 의미하는 경우 해당 의미를 지정해야합니다.
Glen_b-복지 주 모니카

답변:


8

이것의 첫 번째 부분은 기본적으로 정확하지만 변형의 64 %는 모델에 의해 설명됩니다. 간단한 선형 회귀 분석 : Y ~ X, 가 .64 인 경우 Y 변동의 64 %가 Y와 X 사이의 선형 관계에 의해 결정됨을 의미합니다. 매우 낮은 과 강한 관계 를 가질 수 있습니다. 관계가 비선형 인 경우R2R2

번호가 매겨진 두 가지 질문에 대해서는 둘 다 맞지 않습니다. 실제로, 어떤 점도 회귀선에 정확하게 놓여 있지 않을 수 있습니다 . 그것은 측정되고있는 것이 아닙니다. 오히려 평균점이 선 에 얼마나 가까운 지에 대한 질문입니다 . 모든 점 또는 거의 모든 점이 가까이 있으면 (정확한 선이없는 경우에도) 가 높아집니다. 대부분의 점이 선에서 멀어지면 가 낮아집니다. 대부분의 점이 가까이 있지만 몇 점이 멀면 회귀가 잘못되었습니다 (이상치의 문제). 다른 일들도 잘못 될 수 있습니다.R2R2

또한, 나는 "먼"이라는 개념을 다소 모호하게 만들었습니다. 이것은 X가 얼마나 퍼져 있는지에 달려 있습니다. 이러한 개념을 정확하게 만드는 것은 회귀 과정에서 배우는 것의 일부입니다. 나는 여기에 들어 가지 않을 것이다.


글쎄, 그것은 나를 위해 많은 것을 정리했다! Mimshot과 Peter Flom에게 감사합니다! 둘 다 감사합니다! :)
Bradex

1
+1, 좋은 대답입니다. "실제로 어떤 점도 거짓말하지 않을 가능성이 있습니다 ..."와 같은 것을 추가 하시겠습니까? 또한 점이 선으로부터 얼마나 멀리 떨어져 있는지에 대한 개념은 X가 얼마나 넓게 퍼져 있는지와 관련이 있다는 것도 논의 할 가치가 있습니다.
gung-Monica Monica 복원

15

당신은 당신의 진술의 첫 부분에 맞습니다. 결정 계수 를 해석하는 일반적인 방법은 설명 변수로 설명 할 수 있는 종속 변수 ( ) 의 변동 백분율입니다 . 결정 계수 의 정확한 해석 및 도출은 여기에서 찾을 수 있습니다.R2yVar(y)R2

http://economictheoryblog.com/2014/11/05/the-coefficient-of-determination-latex-r2/

그러나, 결정 계수 의 덜 알려진 해석은 이를 관측 된 값 과 사이의 제곱 피어슨 상관 계수로 해석하는 것 입니다. 측정 계수가 관측 값 와 사이의 제곱 Pearson 상관 계수와 동등하다는 증거는 여기에서 찾을 수 있습니다.R2yiy^iyiy^i

http://economictheoryblog.com/2014/11/05/proof/

제 생각에는 이것이 결정 계수 를 해석하는 유일한 의미있는 방법입니다 . 작성한 두 명령문은 에서 파생 될 수 없습니다 .R2R2


2
나는 확실히 해석하는 두 가지 방법이 있습니다 있지 않다 ( 확실히 더이 개 해석 할 수있는 방법에 비해이되는 )하지만 주어진 두 개의 문이에서 파생 될 수 없음을 다음과 이유 가 있다는 것입니다 다른 해석이 가능하지 않고 거짓 (@PeterFlom이 설명하는 이유로). 그러나 그렇지 않으면 이것이 좋은 대답이라고 생각합니다. R2rR2
Silverfish

2
주어진 링크가 미래에 어느 시점에 죽었을 경우 (linkrot은 영원한 문제입니다-가능한 경우 자체 포함 된 답변을 선호하지만 분명히이 질문은 완전한 증거를 요구하지 않으므로 링크가 편리합니다) 의 관계 따르면 및 , 여기에서 , 여기에서 , 여기더 기하학적 여기 . Corr(y,y^)R2
Silverfish

2

니더 1과 2가 맞습니다.

선형 회귀를 사용하여 값 세트에서 값 세트를 예측하려고한다고 가정 합니다. 당신의 모델은yyxx

yi=b+mxi+ϵi

여기서 는 약간의 소음입니다. 는 의 분산의 64 %가 모형 에서 변동성으로 설명 될 수 있음을 의미합니다 . 잔차 분산 ( , 설명되지 않은 분산)은 0.36입니다. 즉,ϵiN(0,σ2)R2=.64yx

y^i=b+mxi

그때

10.64=0.36=var(yyy^y^)var(yy)
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.