상관과 단순 선형 회귀의 차이점은 무엇입니까?


99

특히, Pearson 곱-모멘트 상관 계수를 참조하고 있습니다.


7
회귀와 상관 관계의 관계에 대한 한 가지 관점은 여기에서 내 대답과 구별 될 수 있습니다 . .
gung

답변:


114

사이의 상관 관계의 차이 무엇입니까 와 및 예측 선형 회귀 에서 ?Y Y XXYYX

첫째, 몇 가지 유사점 :

  • 표준화 된 회귀 계수는 Pearson의 상관 계수와 같습니다.
  • 피어슨 상관 계수의 제곱은 간단한 선형 회귀 분석에서 와 같습니다.R2
  • 단순한 선형 회귀 나 상관 관계는 인과 관계에 대한 질문에 직접 대답하지 않습니다. 이 점은 중요합니다. 간단한 회귀가 가 유발 한다는 추론을 마술처럼 허용 할 수 있다고 생각하는 사람들을 만났기 때문 입니다.YXY

둘째, 몇 가지 차이점 :

  • 회귀 방정식 (즉, )을 사용하여 값을 기반으로 를 예측할 수 있습니다.Y Xa+bXYX
  • 상관 관계는 일반적으로 선형 관계를 나타내지 만 다항식 또는 진정한 비선형 관계와 같은 다른 형태의 종속성을 나타낼 수 있습니다.
  • 상관 관계는 일반적으로 Pearson의 상관 계수를 나타내지 만 Spearman과 같은 다른 유형의 상관 관계가 있습니다.

안녕하세요 제로미, 설명해 주셔서 감사합니다.하지만 여전히 여기에 질문이 있습니다. 예측할 필요가없고 두 변수가 얼마나 가까운 지 그리고 어떤 방향 / 강도에 있는지 알고 싶은 경우에는 어떻게해야합니까? 이 두 가지 기술을 사용하여 여전히 다른 점이 있습니까?
yue86231

3
@ yue86231 그렇다면 상관 관계가 더 적절한 것처럼 들립니다.
Jeromy Anglim

5
(1) 유사성에이 가설의 표준 테스트를 추가하는 것이 유용 할 수있는 등에 의해 수행으로 "상관 관계 = 0"또는, (순서 중 하나의 회귀에 대한) 동등하게, "기울기 = 0" lmcor.test에서 R, 동일한 p- 값을 산출합니다.
whuber

3
@ whuber의 제안을 추가해야한다는 데 동의하지만 매우 기본적으로 회귀 기울기 의 부호 와 상관 계수가 같다는 것을 지적 할 가치가 있다고 생각합니다 . 이것은 아마도 대부분의 사람들이 상관 관계와 "최상의 적합 선"사이의 관계에 대해 가장 먼저 배우는 것 중 하나 일 것입니다 (아직 "회귀"라고 부르지 않더라도). 차이점에 대해서는 X와 Y의 상관 관계가 같거나 그 반대의 관계가 있지만 X의 Y의 회귀가 Y의 X의 회귀와 다르다는 사실도 언급 할 가치가 있습니다.
Silverfish

36

다음은 graphpad.com 웹 사이트에 게시 한 답변입니다 .

상관과 선형 회귀는 동일하지 않습니다. 다음과 같은 차이점을 고려하십시오.

  • 상관 관계는 두 변수가 관련되는 정도를 정량화합니다. 상관 관계는 데이터를 통과하는 선에 맞지 않습니다.
  • 상관 관계를 사용하면 원인과 결과에 대해 생각할 필요가 없습니다. 두 변수가 서로 얼마나 관련되어 있는지 간단히 정량화하면됩니다. 회귀를 사용하면 회귀선이 X에서 Y를 예측하는 가장 좋은 방법으로 결정되므로 원인과 결과를 고려해야합니다.
  • 상관 관계를 사용하면 두 변수 중 "X"라고 부르는 변수와 "Y"라고 부르는 변수는 중요하지 않습니다. 둘을 바꾸면 동일한 상관 계수를 얻게됩니다. 선형 회귀 분석을 사용하면 "X"라고 부르는 변수와 "Y"라고 부르는 변수를 결정하는 것이 중요합니다. 둘을 바꾸면 다른 최적 라인이 나타납니다. X에서 Y를 가장 잘 예측하는 선은 Y에서 X를 예측하는 선과 동일하지 않습니다 (산란이없는 완벽한 데이터가없는 한).
  • 두 변수를 모두 측정 할 때는 상관 관계가 거의 항상 사용됩니다. 하나의 변수가 실험적으로 조작하는 것이 적절하지 않습니다. 선형 회귀 분석에서 X 변수는 일반적으로 실험적으로 조작하는 것 (시간, 농도 ...)이고 Y 변수는 측정하는 것입니다.

13
"X에서 Y를 예측하는 가장 좋은 방법"은 원인과 결과와 관련이 없습니다. X는 Y의 원인이거나 그 반대 일 수도 있습니다. 원인에서 결과로 (추론) 또는 결과에서 원인으로 (추론) 추론 할 수 있습니다.
Neil G

4
"두 가지를 바꾸면 다른 최적 라인을 얻게 될 것"은 약간 오해의 소지가 있습니다. 표준화 된 기울기는 두 경우 모두 동일합니다.
xenocyon 2018 년

26

선형 회귀 분석의 단일 예측 변수에서 표준화 된 기울기는 상관 계수와 동일한 값을 갖습니다. 선형 회귀의 장점은 예측 변수의 특정 값이 주어지면 예측 변수에 대한 점수를 예측할 수있는 방식으로 관계를 설명 할 수 있다는 것입니다. 특히 선형 회귀 분석을 통해 예측 변수가 0 일 때 예측 변수의 값인 값이 절편이 아니라는 것을 알 수 있습니다.

요컨대, 그들은 계산적으로 동일한 결과를 생성하지만 간단한 선형 회귀 분석으로 해석 할 수있는 더 많은 요소가 있습니다. 두 변수 사이의 관계의 크기를 단순히 특성화하는 데 관심이있는 경우 상관 관계를 사용하십시오. 결과를 특정 값으로 예측하거나 설명하려는 경우 회귀를 원할 수 있습니다.


"특히 선형 회귀 분석은 상관 관계가 절편이 아니라는 정보를 제공합니다."
SIslam

이것에 대해 되돌아 보면, 회귀가 가로 채기를 제공한다는 것은 사실이다. 왜냐하면 많은 통계 패키지가 그렇게하는 것이 기본이기 때문이다. 인터셉트없이 회귀를 쉽게 계산할 수 있습니다.
russellpierce

예, 하나는 쉽게 절편이없는 회귀를 계산할 수 있지만, 거의 의미가 없을 것입니다 : stats.stackexchange.com/questions/102709/...
kjetil B 형 할보 르센

@kjetilbhalvorsen 표준화 된 경사를 맞출 때 설명한 경우를 제외하고. 표준화 된 회귀 방정식의 절편 항은 항상 0입니다. 왜? IV와 DV는 모두 단위 점수로 표준화 되었기 때문에 인터셉트는 정의 적으로 0입니다. 정확히 답변에 설명 된 사례의 종류입니다. (IV 및 DV 표준화와 동일). IV와 DV가 모두 0으로 표준화되었을 때, 절편은 정의 적으로 0입니다.
russellpierce

11

상관 관계 분석은 종속 변수 인 독립 변수와 무시하는 두 변수 간의 관계 만 정량화합니다. 그러나 적용 회귀 전에 다른 변수에서 확인할 변수의 영향을 교정해야합니다.


9

지금까지 제공된 모든 대답은 중요한 통찰력을 제공하지만 한 매개 변수를 다른 매개 변수로 변환 할 수 있다는 것을 잊지 않아야합니다.

회귀 :y=mx+b

회귀 모수와 상관 관계, 공분산, 분산, 표준 편차 및 평균 간의 연결 : b= ˉ ym ˉ x

m=Cov(y,x)Var(x)=Cor(y,x)Sd(y)Sd(x)
b=y¯mx¯

따라서 매개 변수의 크기를 조정하고 이동하여 서로 변환 할 수 있습니다.

R의 예 :

y <- c(4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c(4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69)
lm(y ~ x)
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      6.5992      -0.3362
(m <- cov(y, x) / var(x)) # slope of regression
## [1] -0.3362361
cor(y, x) * sd(y) / sd(x) # the same with correlation
## [1] -0.3362361
mean(y) - m*mean(x)       # intercept
## [1] 6.599196

3

상관 관계로부터 우리는 두 변수 사이의 선형 관계를 설명하는 인덱스 만 얻을 수 있습니다. 회귀 분석에서 우리는 둘 이상의 변수 사이의 관계를 예측하고이를 사용하여 어떤 변수 x 가 결과 변수 y를 예측할 수 있는지 식별 할 수 있습니다 .


3

Altman DG 인용, "의료 연구를위한 실용 통계"Chapman & Hall, 1991, 321 쪽 : "상관은 실제 데이터와 직접적인 관계가없는 단일 데이터로 데이터 세트를 줄입니다. 회귀는 훨씬 유용한 방법입니다. 측정 결과와 명확하게 관련된 결과. 관계의 강도는 명백하며, 불확실성은 신뢰 구간 또는 예측 구간에서 명확하게 볼 수 있습니다. "


3
비록 Altman에 대해 동정적이지만 회귀 방법은 많은 경우에 상관 관계보다 종종 적합합니다. OLS 회귀 분석에서 생성 된 정보는 상관 관계 계산 (제 1 및 제 2 이변 량 모멘트 및 해당 표준 오류)에 들어가는 정보가 제공하는 정보와 동일하며 상관 계수는 회귀 기울기와 동일한 정보를 제공합니다. 두 가지 접근 방식은 기본 데이터 모델과 해석 방식이 약간 다르지만 Altman이 주장한 방식은 다릅니다.
whuber

1

회귀 분석은 두 변수 간의 관계의 영향 원인을 연구하는 기술입니다. 반면 상관 관계 분석은 두 변수 간의 관계를 정량화하는 방법을 연구하는 기술입니다.


6
이력서에 오신 것을 환영합니다! 이미이 질문에 대한 답변이 너무 많기 때문에 당신은 그들을보고 & 당신이 새로운 것을 추가하고 있는지보고 싶습니까? 더 많이 말하면 편집 할 수 있습니다.
Scortchi

0

상관 관계는 관계 강도의 지수 (단 하나의 숫자)입니다. 회귀는 특정 기능적 관계의 적절성에 대한 분석 (모델의 매개 변수 추정 및 유의성에 대한 통계적 테스트)입니다. 상관의 크기는 회귀 예측이 얼마나 정확한지와 관련이 있습니다.


1
아닙니다. 상관 관계는 우리에게 한정된 관계를 제공하지만 예측이 얼마나 정확한지와는 관련이 없습니다. R2가 제공합니다.
SmallChess

-3

상관 관계는 통계의 용어로, 둘 사이의 관계가 있고 관계의 정도가 있는지를 결정합니다. 범위는 -1에서 +1입니다. 회귀는 평균으로 되돌아가는 것을 의미합니다. 회귀에서 우리는 하나의 변수를 종속적이고 다른 변수를 독립적으로 유지함으로써 가치를 예측하지만 예측하고자하는 변수의 가치를 명확히해야합니다.


6
안녕하세요 @shakir, Cross Validated에 오신 것을 환영합니다! 아마도 이것은 2010 년부터의 오래된 질문이며 이미 7 가지 답변이 있습니다. 새로운 답변이 이전에 다루지 않았던 토론에 중요한 내용을 추가하도록하는 것이 좋습니다. 현재 나는 그것이 확실하지 않다.
amoeba
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.