데이터가 있다고 가정하고 데이터를 비선형 회귀 모델에 맞 춥니 다. 그런 다음 R 제곱 ( )을 계산합니다 .
R- 제곱이 음수이면 그 의미는 무엇입니까? 그것은 내 모델이 나쁘다는 것을 의미합니까? 의 범위는 [-1,1] 일 수 있다는 것을 알고 있습니다. R 2 가 0 일 때 그 의미는 무엇입니까?
데이터가 있다고 가정하고 데이터를 비선형 회귀 모델에 맞 춥니 다. 그런 다음 R 제곱 ( )을 계산합니다 .
R- 제곱이 음수이면 그 의미는 무엇입니까? 그것은 내 모델이 나쁘다는 것을 의미합니까? 의 범위는 [-1,1] 일 수 있다는 것을 알고 있습니다. R 2 가 0 일 때 그 의미는 무엇입니까?
답변:
는 음수 일 수 있습니다.
가 0과 1 사이에 있다고 말하는 사람들 에게는 그렇지 않습니다. 그것 같이 들리 겠지만 그 안에 '제곱'단어로 뭔가 음의 값은 수학의 규칙을 파괴하는 동안, 그것은에서 일어날 수있는 R 2 절편없이 모델. 이유를 이해하려면 R 2 계산 방법을 살펴 봐야합니다 .
이것은 조금 길다-당신이 그것을 이해하지 않고 대답을 원한다면, 끝으로 건너 뛰십시오. 그렇지 않으면, 나는 이것을 간단한 단어로 쓰려고 노력했습니다.
먼저, , T S S 및 E S S 의 3 가지 변수를 정의하겠습니다 .
RSS 계산 :
모든 독립 변수 에 대해 종속 변수 y가 있습니다. 우리 는 x의 각 값에 대해 y 값을 예측하는 가장 적합한 선형 선을 플로팅합니다 . 하자가의 값 호출 Y 라인이 예측 Y를 . 선이 예측하는 것과 실제 y 값이 무엇인지의 오차는 뺄셈으로 계산할 수 있습니다. 이러한 모든 차이는 제곱되고 더해 지므로 잔여 제곱합 R S S가 됩니다.
방정식에 씌우고,
TSS 계산 :
의 평균값 인 ˉ y를 계산할 수 있습니다 . ˉ y 를 플로팅 하면 데이터가 일정하므로 데이터를 가로 지르는 수평선입니다. 우리는하지만 그것으로 무엇을 할 수 있는지, 빼기입니다 ˉ Y (의 평균 값 Y 의 모든 실제 값에서) Y . 결과는 제곱되고 함께 더해져 총 제곱합 T S S를 제공 합니다.
이것을 방정식에 넣기
ESS 계산 :
차이점 Y (값 (Y) 라인에 의해 예측) 평균값 ˉ 제곱 첨가된다. 이것은 동일 제곱의 합을 설명한다 Σ( 예를 - ˉ Y )(2)
기억 , 그러나 우리는 추가 할 수 있습니다 +의 Y를 - y로 그것으로, 그 자체를 상쇄하기 때문이다. 따라서, T S S = Σ ( Y - Y +의 Y - ˉ. 이 브래킷을 확장, 우리가 얻을TSS=Σ(Y - Y )2+
광고가 차단 플롯 때만 때와, 다음은 항상 참이다 : . 따라서, T S S = Σ ( Y - Y ) 2 + Σ ( Y - ˉ Y ) 2 방금 수단 알 수 있음 T S S = R S S + . 모든 항을 T S S로 나누고재 배열하면 1 − R S S .
중요한 부분은 다음과 같습니다 .
는 모델에서 설명하는 분산의 양 (모델의 수준)으로 정의됩니다. 방정식의 형태로 R 2 = 1 − R S S . 익숙해 보이나요? 광고가 차단 플롯되면, 우리는로서이를 대체 할 수있는R2=ESS . 분자와 Demoninator는 모두 제곱의 합이므로R2는 양수 여야합니다.
그러나
우리가 요격을 지정하지 않으면 반드시 동일하지 않습니다 0 . 이것은 즉, T S S = R S S + E S S + 2 * Σ ( Y - Y ) ( Y - ˉ Y ) .
모든면 분할 , 우리가 얻을 1 - R S S .
마지막으로, 우리는 얻는 대신 . 이번에는 분자에 제곱의 합이 아닌 항이 있으므로 음수가 될 수 있습니다. 이것은R2를음수로 만듭니다. 언제 이런 일이 일어날까요? 2*Σ(Y - Y )( Y - ˉ Y는 )음수 것이다Y가 - (Y)이 마이너스이고 , Y - ˉ Y는 양극, 또는 그 반대. 이것은 ˉ y 의 수평선이실제로 가장 적합한 선보다 데이터를 더 잘 설명할 때 발생합니다.
간단히 말해서 :
그것을 통해 당신을 칭찬합니다. 이 정보가 도움이된다면, 여기 에서 언급해야 할 fcop의 답변을 오래 전부터지지해야합니다 .
Neither answer so far is entirely correct, so I will try to give my understanding of R-Squared. I have given a more detailed explanation of this on my blog post here "What is R-Squared"
합계 제곱 오류
보통 최소 제곱 회귀의 목표는 합 제곱 오차를 최소화하는 선을 얻는 것입니다. 최소 합 제곱 오차가있는 기본 선은 평균을 통과하는 수평선입니다. 기본적으로 더 잘 할 수 없다면 평균 값만 예측하면 최소 합 제곱 오차를 얻을 수 있습니다.
R- 제곱은 합한 제곱 오차를 기준으로 수행 한 평균 선보다 얼마나 나은지 측정하는 방법입니다. R- 제곱에 대한 방정식은 다음과 같습니다.
이제 SS 회귀와 SS 합계는 모두 제곱 항의 합입니다. 둘 다 항상 긍정적입니다. 이것은 우리가 1을 취하고 양의 값을 빼는 것을 의미합니다. 따라서 최대 R- 제곱 값은 양수 1이지만 최소값은 음의 무한대입니다. 예, 맞습니다. R 제곱의 범위는 -1과 1이 아닌 -1과 1 사이이며 0과 1이 아닙니다.
합계 제곱 오류 란 무엇입니까
합계 제곱 오류는 모든 지점에서 오류를 가져 와서 제곱하고 모든 사각형을 추가합니다. 총 오류의 경우 평균을 가로 지르는 수평선을 사용합니다. 다른 정보가없는 경우, 즉 회귀를 수행 할 수없는 경우 가장 작은 합계 제곱 오류가 발생하기 때문입니다.
방정식으로 이것은
이제 회귀를 통해 우리의 목표는 평균보다 더 잘하는 것입니다. 예를 들어이 회귀선은 수평선을 사용하는 것보다 더 낮은 합계 제곱 오차를 나타냅니다.
회귀 합계 제곱 오차 방정식은 다음과 같습니다.
이상적으로는 회귀 오류가 없을 것입니다. 즉, 회귀선이 데이터와 완벽하게 일치합니다. 이 경우 R- 제곱 값이 1이됩니다.
음수 R 제곱
위의 모든 정보는 매우 표준입니다. 이제 부정적인 R- 제곱은 어떻습니까?
회귀 방정식이 평균값보다 더 낮은 합계 제곱 오차를 제공해야 할 이유가 없다는 것이 밝혀졌습니다. 일반적으로 평균값보다 더 나은 예측을 할 수 없다면 평균값 만 사용하면되지만 그 원인을 강요하지는 않습니다. 예를 들어 모든 것에 대한 중앙값을 예측할 수 있습니다.
실제로는 최소 제곱 회귀 분석을 사용하면 R- 제곱 값을 마이너스로 만드는 가장 일반적인 시간은 회귀선을 통과해야하는 지점을 강제하는 시점입니다. 이것은 일반적으로 절편을 설정하여 수행되지만 회귀선을 임의의 지점을 통해 강제 할 수 있습니다.
그렇게하면 회귀선이 해당 지점을 통과하고 해당 지점을 통과하는 동안 최소 합계 제곱 오류를 얻으려고 시도합니다.
회귀 방정식은 기본적으로 회귀선이 통과하는 점으로 평균 x 및 평균 y를 사용합니다. 그러나 회귀선이 일반적으로있는 곳에서 멀리 떨어진 지점을 통과하면 수평선을 사용하는 것보다 높은 제곱 오차를 얻을 수 있습니다
아래 이미지에서 두 회귀선 모두 0의 절편을 갖도록 강제되었습니다. 이로 인해 원점에서 멀리 떨어진 데이터에 대해 음의 R- 제곱이 발생했습니다.
상단 점 세트, 빨간색 점의 경우 회귀선은 원점을 통과하는 가장 좋은 회귀선입니다. 회귀선이 수평선을 사용하는 것보다 나쁘기 때문에 R- 제곱이 음수입니다.
정의되지 않은 R- 제곱
정의되지 않은 R- 제곱을 얻을 수있는 특별한 사례가 하나도 없습니다. 즉, 데이터가 완전히 수평이면 총합 제곱 오류는 0입니다. 결과적으로 R 제곱 방정식에서 0을 0으로 나눈 값은 정의되지 않습니다.
이전 주석가가 지적했듯이, r ^ 2는 [-1, + 1]이 아닌 [0,1] 사이에 있으므로 음수가 될 수 없습니다. 값을 제곱하고 음수를 얻을 수 없습니다. 아마도 당신은 상관 관계 r을보고 있습니까? [-1, + 1] 사이에있을 수 있습니다. 여기서 0은 변수 사이에 관계가 없음을 의미하고, -1은 하나의 변수가 증가하고 다른 변수가 감소함에 따라 완전한 음의 관계가 있음을 의미하며 +1은 완전 양성입니다 관계 (두 변수가 일치하여 위 또는 아래로).
실제로 r ^ 2를보고 있다면 이전 주석자가 설명한 것처럼 실제 r ^ 2가 아니라 조정 된 r ^ 2를보고있을 것입니다. 통계의 의미를 고려하십시오. 행동 과학 통계를 가르치고, 학생들에게 r ^ 2의 의미에 대해 가르치는 가장 쉬운 방법은 "% 분산 설명"입니다. 따라서 r ^ 2 = 0.5 인 경우 모형은 종속 (결과) 변수 변동의 50 %를 설명합니다. 음수 r ^ 2가있는 경우 모형이 결과 변수의 음수 %를 설명하며 이는 직관적으로 합리적인 제안이 아닙니다. 그러나 조정 된 r ^ 2는 표본 크기 (n)와 예측 변수 수 (p)를 고려합니다. 그것을 계산하는 공식은 여기에 있습니다. r ^ 2가 매우 낮 으면 음수 값을 얻는 것이 상당히 쉽습니다. 물론, 음수 조정 된 r ^ 2는 일반 r ^ 2보다 더 직관적 인 의미를 갖지 않지만 이전 주석가가 말했듯이 그것은 쓸모없는 것이 아니라면 모델이 매우 나쁘다는 것을 의미합니다.