음의 R- 제곱은 무엇을 의미합니까?


17

데이터가 있다고 가정하고 데이터를 비선형 회귀 모델에 맞 춥니 다. 그런 다음 R 제곱 ( )을 계산합니다 .아르 자형2

R- 제곱이 음수이면 그 의미는 무엇입니까? 그것은 내 모델이 나쁘다는 것을 의미합니까? 의 범위는 [-1,1] 수 있다는 것을 알고 있습니다. R 2 가 0 일 때 그 의미는 무엇입니까?아르 자형2아르 자형2


4
그것은 당신이 이후 완료 뭔가 잘못했습니다 의미 의 거짓말 [ 0 , 1 ] 정의. 반면에 조정R 2 는 음수 일 수 있습니다. 이는 모형이 데이터에 매우 적합하지 않다는 것을 의미한다고 가정 할 수 있습니다. 경우 R 2 이고 정확하게 수단이 제로 ˉ Y는 단지 좋은 예측 같다 Y 최소 제곱 회귀 직선을 자체. 아르 자형2[0,1]아르 자형2 R2y¯y
dsaxton

1
이것은 인터셉트없이 회귀에 가능합니다. 예를 들어 stats.stackexchange.com/questions/164586/…



@ gung 나는 이것이 아마도 그 질문의 복제 일 것이라고 제안하려고했다 ... 그들이 충분히 구별되었다고 생각합니까? (분명한 SPSS 구문이 없기 때문에이 질문이 다른 질문보다 더 멋지게 보이지만 다른 스레드의 답변이 매우 우수하고이 질문도 다루는 것 같습니다.)
Silverfish

답변:


37

는 음수 일 수 있습니다.R2

  1. 모델이 데이터를 매우 적합하게 적합
  2. 요격을 설정하지 않았습니다

가 0과 1 사이에 있다고 말하는 사람들 에게는 그렇지 않습니다. 그것 같이 들리 겠지만 그 안에 '제곱'단어로 뭔가 음의 값은 수학의 규칙을 파괴하는 동안, 그것은에서 일어날 수있는 R 2 절편없이 모델. 이유를 이해하려면 R 2 계산 방법을 살펴 봐야합니다 .R2R2R2

이것은 조금 길다-당신이 그것을 이해하지 않고 대답을 원한다면, 끝으로 건너 뛰십시오. 그렇지 않으면, 나는 이것을 간단한 단어로 쓰려고 노력했습니다.

먼저, , T S SE S S 의 3 가지 변수를 정의하겠습니다 .RSSTSSESS

RSS 계산 :

모든 독립 변수 에 대해 종속 변수 y가 있습니다. 우리 는 x의 각 값에 대해 y 값을 예측하는 가장 적합한 선형 선을 플로팅합니다 . 하자가의 값 호출 Y 라인이 예측 Y를 . 선이 예측하는 것과 실제 y 값이 무엇인지의 오차는 뺄셈으로 계산할 수 있습니다. 이러한 모든 차이는 제곱되고 더해 지므로 잔여 제곱합 R S S가 됩니다.xyyxyy^yRSS

방정식에 씌우고, RSS=(yy^)2

TSS 계산 :

의 평균값 인 ˉ y를 계산할 수 있습니다 . ˉ y 를 플로팅 하면 데이터가 일정하므로 데이터를 가로 지르는 수평선입니다. 우리는하지만 그것으로 무엇을 할 수 있는지, 빼기입니다 ˉ Y (의 평균 값 Y 의 모든 실제 값에서) Y . 결과는 제곱되고 함께 더해져 총 제곱합 T S S를 제공 합니다.yy¯y¯y¯와이와이에스에스

이것을 방정식에 넣기 에스에스=(와이와이¯)2

ESS 계산 :

차이점 Y (값 (Y) 라인에 의해 예측) 평균값 ˉ와이^와이 제곱 첨가된다. 이것은 동일 제곱의 합을 설명한다 Σ( 예를 - ˉ Y )(2)와이¯(와이^와이¯)2

기억 , 그러나 우리는 추가 할 수 있습니다 +의 Y를 - y로 그것으로, 그 자체를 상쇄하기 때문이다. 따라서, T S S = Σ ( Y - Y +의 Y - ˉ에스에스=(와이와이¯)2+와이^와이^. 이 브래킷을 확장, 우리가 얻을TSS=Σ(Y - Y )2+에스에스=(와이와이^+와이^와이¯)2에스에스=(와이와이^)2+2(와이와이^)(와이^와이¯)+(와이^와이¯)2

광고가 차단 플롯 때만 때와, 다음은 항상 참이다 : . 따라서, T S S = Σ ( Y - Y ) 2 + Σ ( Y - ˉ Y ) 2 방금 수단 알 수 있음 T S S = R S S +2(와이와이^)(와이^와이¯)=0에스에스=(와이와이^)2+(와이^와이¯)2 . 모든 항을 T S S로 나누고재 배열하면 1 R S S에스에스=아르 자형에스에스+이자형에스에스에스에스 .1아르 자형에스에스에스에스=이자형에스에스에스에스

중요한 부분은 다음과 같습니다 .

는 모델에서 설명하는 분산의 양 (모델의 수준)으로 정의됩니다. 방정식의 형태로 R 2 = 1 R S S아르 자형2 . 익숙해 보이나요? 광고가 차단 플롯되면, 우리는로서이를 대체 할 수있는R2=ESS아르 자형2=1아르 자형에스에스에스에스 . 분자와 Demoninator는 모두 제곱의 합이므로R2는 양수 여야합니다.아르 자형2=이자형에스에스에스에스아르 자형2

그러나

우리가 요격을 지정하지 않으면 반드시 동일하지 않습니다 0 . 이것은 즉, T S S = R S S + E S S + 2 * Σ ( Y - Y ) ( Y - ˉ Y ) .2(와이와이^)(와이^와이¯)0에스에스=아르 자형에스에스+이자형에스에스+2(와이와이^)(와이^와이¯)

모든면 분할 , 우리가 얻을 1 - R S S에스에스 .1아르 자형에스에스에스에스=이자형에스에스+2(와이와이^)(와이^와이¯)에스에스

마지막으로, 우리는 얻는 대신 . 이번에는 분자에 제곱의 합이 아닌 항이 있으므로 음수가 될 수 있습니다. 이것은R2를음수로 만듭니다. 언제 이런 일이 일어날까요? 2*Σ(Y - Y )( Y - ˉ Y는 )음수 것이다Y가 - (Y)이 마이너스이고 , Y - ˉ Y는 양극, 또는 그 반대. 이것은 ˉ y 의 수평선이실제로 가장 적합한 선보다 데이터를 더 잘 설명할 때 발생합니다.아르 자형2=이자형에스에스+2(와이와이^)(와이^와이¯)에스에스아르 자형22(와이와이^)(와이^와이¯)와이와이^와이^와이¯와이¯

아르 자형2

R ^ 2가 음수 일 때 과장된 예 (출처 : University of Houston Clear Lake)

간단히 말해서 :

  • 아르 자형2<0

아르 자형2=0

  • 아르 자형2=0

그것을 통해 당신을 칭찬합니다. 이 정보가 도움이된다면, 여기 에서 언급해야 할 fcop의 답변을 오래 전부터지지해야합니다 .


5
Seriously fantastic answer! The only thing missing for me is the intuition behind why 2(yy^)(y^y¯)=0 when, and only when, there is an intercept set?
Owen

6

Neither answer so far is entirely correct, so I will try to give my understanding of R-Squared. I have given a more detailed explanation of this on my blog post here "What is R-Squared"

합계 제곱 오류

보통 최소 제곱 회귀의 목표는 합 제곱 오차를 최소화하는 선을 얻는 것입니다. 최소 합 제곱 오차가있는 기본 선은 평균을 통과하는 수평선입니다. 기본적으로 더 잘 할 수 없다면 평균 값만 예측하면 최소 합 제곱 오차를 얻을 수 있습니다.

평균을 통한 수평선

R- 제곱은 합한 제곱 오차를 기준으로 수행 한 평균 선보다 얼마나 나은지 측정하는 방법입니다. R- 제곱에 대한 방정식은 다음과 같습니다.

r- 제곱 방정식

이제 SS 회귀와 SS 합계는 모두 제곱 항의 합입니다. 둘 다 항상 긍정적입니다. 이것은 우리가 1을 취하고 양의 값을 빼는 것을 의미합니다. 따라서 최대 R- 제곱 값은 양수 1이지만 최소값은 음의 무한대입니다. 예, 맞습니다. R 제곱의 범위는 -1과 1이 아닌 -1과 1 사이이며 0과 1이 아닙니다.

합계 제곱 오류 란 무엇입니까

합계 제곱 오류는 모든 지점에서 오류를 가져 와서 제곱하고 모든 사각형을 추가합니다. 총 오류의 경우 평균을 가로 지르는 수평선을 사용합니다. 다른 정보가없는 경우, 즉 회귀를 수행 할 수없는 경우 가장 작은 합계 제곱 오류가 발생하기 때문입니다.

여기에 이미지 설명을 입력하십시오

방정식으로 이것은

합계 제곱 총 오차 방정식

이제 회귀를 통해 우리의 목표는 평균보다 더 잘하는 것입니다. 예를 들어이 회귀선은 수평선을 사용하는 것보다 더 낮은 합계 제곱 오차를 나타냅니다.

여기에 이미지 설명을 입력하십시오

회귀 합계 제곱 오차 방정식은 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

이상적으로는 회귀 오류가 없을 것입니다. 즉, 회귀선이 데이터와 완벽하게 일치합니다. 이 경우 R- 제곱 값이 1이됩니다.

r의 제곱 값 1

음수 R 제곱

위의 모든 정보는 매우 표준입니다. 이제 부정적인 R- 제곱은 어떻습니까?

회귀 방정식이 평균값보다 더 낮은 합계 제곱 오차를 제공해야 할 이유가 없다는 것이 밝혀졌습니다. 일반적으로 평균값보다 더 나은 예측을 할 수 없다면 평균값 만 사용하면되지만 그 원인을 강요하지는 않습니다. 예를 들어 모든 것에 대한 중앙값을 예측할 수 있습니다.

실제로는 최소 제곱 회귀 분석을 사용하면 R- 제곱 값을 마이너스로 만드는 가장 일반적인 시간은 회귀선을 통과해야하는 지점을 강제하는 시점입니다. 이것은 일반적으로 절편을 설정하여 수행되지만 회귀선을 임의의 지점을 통해 강제 할 수 있습니다.

그렇게하면 회귀선이 해당 지점을 통과하고 해당 지점을 통과하는 동안 최소 합계 제곱 오류를 얻으려고 시도합니다.

고정 점

회귀 방정식은 기본적으로 회귀선이 통과하는 점으로 평균 x 및 평균 y를 사용합니다. 그러나 회귀선이 일반적으로있는 곳에서 멀리 떨어진 지점을 통과하면 수평선을 사용하는 것보다 높은 제곱 오차를 얻을 수 있습니다

아래 이미지에서 두 회귀선 모두 0의 절편을 갖도록 강제되었습니다. 이로 인해 원점에서 멀리 떨어진 데이터에 대해 음의 R- 제곱이 발생했습니다.

음수 r 제곱

상단 점 세트, 빨간색 점의 경우 회귀선은 원점을 통과하는 가장 좋은 회귀선입니다. 회귀선이 수평선을 사용하는 것보다 나쁘기 때문에 R- 제곱이 음수입니다.

정의되지 않은 R- 제곱

정의되지 않은 R- 제곱을 얻을 수있는 특별한 사례가 하나도 없습니다. 즉, 데이터가 완전히 수평이면 총합 제곱 오류는 0입니다. 결과적으로 R 제곱 방정식에서 0을 0으로 나눈 값은 정의되지 않습니다.

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오


매우 생생한 답변으로,이 유형의 답변을 훨씬 더 많이보고 싶습니다!
Ben

0

이전 주석가가 지적했듯이, r ^ 2는 [-1, + 1]이 아닌 [0,1] 사이에 있으므로 음수가 될 수 없습니다. 값을 제곱하고 음수를 얻을 수 없습니다. 아마도 당신은 상관 관계 r을보고 있습니까? [-1, + 1] 사이에있을 수 있습니다. 여기서 0은 변수 사이에 관계가 없음을 의미하고, -1은 하나의 변수가 증가하고 다른 변수가 감소함에 따라 완전한 음의 관계가 있음을 의미하며 +1은 완전 양성입니다 관계 (두 변수가 일치하여 위 또는 아래로).

실제로 r ^ 2를보고 있다면 이전 주석자가 설명한 것처럼 실제 r ^ 2가 아니라 조정 된 r ^ 2를보고있을 것입니다. 통계의 의미를 고려하십시오. 행동 과학 통계를 가르치고, 학생들에게 r ^ 2의 의미에 대해 가르치는 가장 쉬운 방법은 "% 분산 설명"입니다. 따라서 r ^ 2 = 0.5 인 경우 모형은 종속 (결과) 변수 변동의 50 %를 설명합니다. 음수 r ^ 2가있는 경우 모형이 결과 변수의 음수 %를 설명하며 이는 직관적으로 합리적인 제안이 아닙니다. 그러나 조정 된 r ^ 2는 표본 크기 (n)와 예측 변수 수 (p)를 고려합니다. 그것을 계산하는 공식은 여기에 있습니다. r ^ 2가 매우 낮 으면 음수 값을 얻는 것이 상당히 쉽습니다. 물론, 음수 조정 된 r ^ 2는 일반 r ^ 2보다 더 직관적 인 의미를 갖지 않지만 이전 주석가가 말했듯이 그것은 쓸모없는 것이 아니라면 모델이 매우 나쁘다는 것을 의미합니다.


3
설명 된 분산의 백분율과 관련하여, 아마도 모형이 분산 을 증가시키기에 열악한 경우 (ESS> TSS) 음수가 될 수 있습니다.아르 자형2, 어디 아르 자형2는 실제 값과 적합치 간의 제곱 상관이 아니라 설명 된 분산의 %로 정의됩니다. 이것은 OLS에 의해 추정 된 절편으로 회귀에서 발생하지 않을 수도 있지만, 절편 또는 다른 경우없이 회귀에서 발생할 수 있습니다.
Richard Hardy

4
아르 자형2 불가능하다 <0 샘플에서 제외하지만 될 때 계산 샘플 아웃 모든 회귀 계수를 해결 한 후 홀드 아웃 샘플, 즉. 위에서 설명했듯이 이것은 랜덤 예측보다 나쁩니다.
Frank Harrell

@FrankHarrell, 샘플로 작성해야합니까? 물론, 평균보다 나쁜 모델을 생성하려면 데이터를 상당히 무시해야하지만 샘플 내 데이터에서만이 작업을 수행 할 수없는 이유는 알 수 없습니다.
매트 크라우스

나는 샘플에서 계수가 추정 된 샘플을 의미한다고 가정합니다. 그런 다음 부정적인 수 없습니다.
Frank Harrell

1
@FrankHarrell는 모델을 가정 것은 정말 끔찍 - 일부 차단없는 기능 등이 적합(ω엑스+ϕ)대각선으로. 하지 않아야아르 자형2샘플 데이터에서도 부정적일까요? Matlab은 내가 그렇게 할 때 상당히 큰 음수를 제공합니다 ...
Matt Krause
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.