결정 계수 ( ) : 나는 해석을 완전히 이해 한 적이 없다


21

변수 사이의 변동량을 나타내는 의 개념을 완전히 이해하고 싶습니다 . 모든 웹 설명은 약간 기계적이고 모호합니다. 나는 기계적으로 숫자를 사용하는 것이 아니라 개념을 "얻고 싶다".r2

예 : 공부 한 시간 대 시험 점수

r = 0.8

r2 = .64

  • 이것이 무엇을 의미합니까?
  • 시험 점수 변동의 64 %는 몇 시간으로 설명 할 수 있습니까?
  • 우리는 단지 제곱하여 그것을 어떻게 알 수 있습니까?

귀하의 질문은 R vs R-square에 관한 것이 아닙니다 ( 이해 ). 이것은 해석에 관한 것입니다 . 제목을 재구성하십시오. 0.82=0.64아르 자형2
로빈 지라드


@amoeba는 동의했다. 나는 태그를 뽑았다.
Brett

유의성을 결정 하려면 n 이 필요합니다 . stats.stackexchange.com/a/265924/99274 도 참조하십시오 .
Carl

답변:


27

변형의 기본 아이디어로 시작하십시오. 시작 모형은 평균과의 제곱 편차의 합입니다. R ^ 2 값은 대체 모델을 사용하여 설명 된 변동의 비율입니다. 예를 들어, R- 제곱은 평균이 아닌 회귀선에서 제곱 거리를 합산하여 제거 할 수있는 Y의 변동량을 나타냅니다.

단순한 회귀 문제에 대해 생각하면 이것이 명확하게 보인다고 생각합니다. 가로 축을 따라 예측 변수 X가 있고 세로 축을 따라 응답 Y가있는 일반적인 산점도를 고려하십시오.

평균은 Y가 일정한 플롯의 수평선입니다. Y의 총 변동은 Y의 평균과 각 개별 데이터 요소 간의 제곱 차이의 합입니다. 평균선과 모든 개별 점 사이의 거리가 제곱되고 합산됩니다.

모형에서 회귀선을 사용한 후 다른 변동성 측정 값을 계산할 수도 있습니다. 이것은 각 Y 지점과 회귀선의 차이입니다. 각 (Y-평균) 제곱 대신 (Y-회귀선의 점)을 제곱합니다.

회귀선이 수평이 아닌 경우이 회귀선을 평균보다 사용하면 전체 거리가 줄어들게됩니다. 설명 된 추가 변형과 원래 변형 간의 비율은 R ^ 2입니다. 회귀선을 맞추는 것으로 설명 된 반응의 원래 변형 비율입니다.

여기에 이미지 설명을 입력하십시오

다음은 시각화를 돕기 위해 평균, 회귀선 및 회귀선에서 각 점으로 세그먼트가있는 그래프에 대한 R 코드입니다.

library(ggplot2)
data(faithful)

plotdata <- aggregate( eruptions ~ waiting , data = faithful, FUN = mean) 

linefit1 <- lm(eruptions ~ waiting, data = plotdata)

plotdata$expected <- predict(linefit1)
plotdata$sign <- residuals(linefit1) > 0

p <- ggplot(plotdata, aes(y=eruptions, x=waiting, xend=waiting, yend=expected) )  

p  + geom_point(shape = 1, size = 3) +
     geom_smooth(method=lm, se=FALSE) + 
     geom_segment(aes(y=eruptions, x=waiting, xend=waiting, yend=expected, colour = sign),  
                  data = plotdata) +
     theme(legend.position="none")  +
     geom_hline(yintercept = mean(plotdata$eruptions), size = 1)

> 설명 된 변형과 원래 변형의 비율은 R ^ 2입니다.이 값을 얻었는지 봅시다. 평균의 원래 변동이 총합 100이고 회귀 변동이 총합이 20이면 비율 = 20/100 = .2 R ^ 2 = .2 b / c 평균 변동의 20 % (빨간색)를 나타냅니다 설명 된 변동 (녹색)에 의해 (r = 1 인 경우) 원래 변동이 총계이고 회귀 변동이 총계 인 경우 비율 = 0/50 = 0 = 평균에서 변동의 0 % ( 빨간색)은 설명 된 변형 (녹색)에 의해 설명됩니다. R ^ 2는 0이 아닌 1 일 것으로 예상됩니다.
JackOfAll

1
R ^ 2 = 1- (SSR / SST) 또는 (SST-SSR) / SST. 따라서 귀하의 예에서 R ^ 2 = .80 및 1.00입니다. 회귀선과 각 점의 차이는 적합치에 의해 설명 할 수 없다는 점입니다. 나머지는 설명 된 비율입니다. 그렇지 않으면 정확히 맞습니다.
Brett

마지막 단락을 좀 더 명확하게 만들기 위해 편집했습니다. 개념적으로 (그리고 계산적으로) 필요한 것은 전부입니다. 실제로 공식을 추가하고 SST SSE와 SSR을 참조 명확하게 될 수도 있지만 그때는 개념적으로 그것을 얻기 위해 노력했다
브렛

즉, R ^ 2는 예상 회귀 값과 평균 값 (SSE)의 차이 인 평균 (SST)의 총 변동 비율입니다. 시간 대 점수의 예에서 회귀 값은 공부 한 시간과의 상관 관계를 기반으로 예상되는 시험 점수가됩니다. 그로부터의 추가 변형은 SSR에 기인합니다. 주어진 시점에서, 시간은 변수 / 회귀를 연구하여 평균 (SST)에서 전체 변동의 x %를 설명했습니다. r 값이 높을수록 "설명"은 SSR에 비해 SST의 큰 비율입니다. r 값이 낮 으면 "설명"은 SSR에 비해 SST 비율이 낮습니다.
JackOfAll

@BrettMagill, 이미지에 대한 링크가 끊어진 것 같습니다 ...
Garrett

6

둘 사이의 관계의 수학 데모는 여기에 있습니다 : 피어슨의 상관 관계 및 최소 제곱 회귀 분석 .

수학과 별도로 제공 될 수있는 기하학적 또는 다른 직관이 있는지 확실하지 않지만, 생각할 수 있으면이 답변을 업데이트하겠습니다.

업데이트 : 기하학적 직관

엑스와이와이

와이=엑스 β+ϵ

와이1,와이2엑스1,엑스2

대체 텍스트 http://a.imageshack.us/img202/669/linearregression1.png

β엑스 β와이β엑스β^β와이와이^=엑스 β^

와이=와이^+ϵ^

와이와이^ϵ^β^

β엑스 βϵ^

와이와이엑스와이와이12+와이22와이와이^와이^

피타고라스 정리에 의하면,

와이2=와이^2+ϵ^2

엑스와이^2와이2기음영형에스(θ)=와이^와이

따라서 필요한 관계가 있습니다.

와이엑스

희망이 도움이됩니다.


도와 주려는 노력에 감사 드리지만 불행히도 이로 인해 10 배가 나빠졌습니다. r ^ 2를 설명하기 위해 삼각법을 실제로 도입하고 있습니까? 당신은 좋은 선생님이 되기에는 너무 똑똑합니다!
JackOfAll

나는 당신이 왜 상관 ^ 2 = R ^ 2인지 알고 싶다고 생각했습니다. 어쨌든 동일한 개념을 이해하는 다른 방법이 도움이되거나 적어도 그것이 내 관점입니다.

3

회귀에 의해 눈 이 약간의 직관을 개발하려는 경우 애플릿은 유용 할 수 있습니다.

데이터를 생성 한 다음 R 의 값을 추측 하여 실제 값과 비교할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.