표본 R의 제곱을 계산하는 방법은 무엇입니까?


10

나는 이것이 아마도 다른 곳에서 논의되었을 것이라는 것을 알고 있지만, 명확한 대답을 찾지 못했습니다. 선형 회귀 모델의 표본 외부 를 계산 하기 위해 공식 를 사용하려고합니다 . 여기서 은 잔차 제곱의 합이고 는 총 제곱합입니다. 훈련 세트의 경우,R2=1SSR/SSTR2SSRSST

SST=Σ(yy¯train)2

테스트 세트는 어떻습니까? 샘플 에서 을 계속 사용해야합니까 , 아니면 사용해야 합니까?y¯trainyy¯test

를 사용하면 결과 가 때때로 음수 수 있음을 알았습니다 . 이것은 ( 샘플 테스트를 위해 linear_model의 함수 에서도 사용됨)를 사용하는 sklearn 함수 의 설명과 일치합니다 . 그들은 "입력 특징을 무시하고 항상 y의 기대 값을 예측하는 일정한 모델은 0.0의 R ^ 2 점수를 얻을 것"이라고 말한다.y¯testR2r2_score()y¯testscore()

그러나 다른 곳에서는 사람들이 여기여기 에서 와 같이 했습니다 (dmi3kno의 두 번째 답변). 그래서 어느 것이 더 의미가 있는지 궁금했습니다. 모든 의견은 크게 감사하겠습니다!y¯train

답변:


3

당신이 올바른지.

OSR 잔차는 테스트 데이터를 기반으로하지만 기준선은 여전히 ​​훈련 데이터 여야합니다. 그렇게 말하면 SST는 . 와 동일합니다.2SST=Σ(yy¯train)2R2


3
이전 편집에서 일부 명백하고 명백한 오류를 수정했지만 일부 표기법과 의도 된 의미가 여전히 명확하지 않습니다.
Nick Cox

답변 해주셔서 감사합니다! 이것에 대한 언급이 있습니까? stat 소프트웨어가 y_test와 함께 대체 정의를 일반적으로 사용하는 것 같습니다.
Matifou

이에 대한 참조가 있습니까? 물론, 를 이탈도의 비교로 취 하면 가능성의 비교를 잘못 생각합니다. 그러나 를 설명 된 분산의 비율로 사용하면 총 제곱합이 어디에도 나타나지 않기 때문에 그렇지 않습니다. R2R2
Firebug
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.