t- 통계량이 너무 클 때 R- 제곱이 왜 이렇게 낮습니까?


17

나는 4 개의 변수로 회귀를 실행했으며 T 값이 7,9,2631 모든 통계적으로 매우 중요 합니다 (십진수를 포함하지 않는 것처럼 보이므로 라고 말합니다 ). 매우 높고 명확합니다. 그러나 는 단지 .2284입니다. 여기서 t 값을 잘못 해석하여 그렇지 않은 것을 의미합니까? t 값을 보았을 때의 첫 번째 반응은 가 상당히 높을 것이지만 아마도 가 높은 것일까 요?R2R2R2


1
당신의 이 적당히 큽니다. n
Glen_b-복지 주 모니카

@Glen_b 예, 약 6000.
Kyle

10
그런 다음 작은 R 2 와 관련된 큰 통계량 은 전적으로 눈에 띄지 않습니다. 표준 오차가 1 / 로 감소하기 때문에tR2 ,t비율은 √로 증가합니다1/nt , 동시에R증가함에 따라 일정하게 유지하는 경향이없음. 왜R2가무엇인지 신경 쓰십니까? 왜 t- 비가 중요합니까? nR2nR2
Glen_b-복지 주 모니카

답변:


45

t -values 및 R2 매우 다른 일을 판단하는 데 사용됩니다. t -values은중인 추정치의 accurary 판단하는 데 사용되는 βi 의, 그러나 R2 응답 변수 변동의 측정 량은 공변량으로 설명한다. n 관측치 로 회귀 모형을 추정한다고 가정합니다 .

Yi=β0+β1X1i+...+βkXki+ϵi

여기서 ϵii.i.dN(0,σ2) , i=1,...,n .

t 값 (절대 값)은 βi=0 이라는 귀무 가설을 기각합니다 . 이는 계수의 부호를 정확하게 추정했음을 확신 할 수 있음을 의미합니다. 또한 |t|> 4이고 n>5 이면 0은 계수에 대해 99 % 신뢰 구간에 있지 않습니다. t 계수에 대한 -value βi 추정치 간의 차이 βi^ 및 표준 오차로 정규화 0 se{βi^} .

t=βi^se{βi^}

이것은 단순히 추정치를 변동성의 척도로 나눈 것입니다. 충분히 큰 데이터 집합이있는 경우 항상 통계적으로 유의 한 (큰) t 있습니다. 그렇다고 공변량이 반응 변수의 변동을 설명한다는 의미는 아닙니다.

@Stat에서 언급했듯이 R2 는 종속 변수로 설명되는 반응 변수의 변동량을 측정합니다. R2 에 대한 자세한 내용은 Wikipedia 로 이동하십시오 . 귀하의 경우, βi 를 정확하게 추정하기에 충분히 큰 데이터 세트가있는 것으로 보이지만 공변량은 반응 값을 설명 및 / 또는 예측하는 데 좋지 않습니다.


1
(+1) 처음부터 이것이 잘 고려되고 유익한 설명이라는 것이 분명합니다.
whuber

좋은 대답입니다. "실제적 중요성"과 "통계적 유의성"이라는 용어는 종종이 문제에 대해 생각하는 데 도움이됩니다.
Aaron-복원 모니카

3
R2=t2t2+df

7

caburke와 동일하지만 더 간단히 말하면 변수로 인한 평균 반응이 0이 아니라고 확신합니다. 그러나 회귀 분석에 포함되지 않은 응답이 많이 발생하는 다른 많은 것들이 있습니다.


0

Could it be that although your predictors are trending linearly in terms of your response variable (slope is significantly different from zero), which makes the t values significant, but the R squared is low because the errors are large, which means that the variability in your data is large and thus your regression model is not a good fit (predictions aren't as accurate)?

Just my 2 cents.

Perhaps this post can help: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p-values


0

주어진 몇 가지 대답은 가깝지만 여전히 잘못되었습니다.

"t- 값은 βi의 추정치의 정확도를 판단하는 데 사용됩니다."가 가장 우려되는 것입니다.

T- 값은 단지 임의 발생 가능성을 나타냅니다. 큰 의미는 없습니다. 작을 가능성이 높습니다. 긍정적이고 부정적인 것은 가능성 해석에 중요하지 않습니다.

"R2는 공변량으로 설명 된 반응 변수의 변동량을 측정합니다."

(나는이 플랫폼에서 아직 언급하지 않았지만 허용되지 않았습니다.)


2
t- 값이 p-
whuber

-4

작은 R 제곱을 처리하는 유일한 방법은 다음을 확인하십시오.

  1. 표본 크기가 충분히 큽니까? 그렇다면 2 단계를 수행하십시오. 그렇지 않으면 표본 크기를 늘리십시오.
  2. 모형 추정에 얼마나 많은 공변량을 사용 했습니까? 귀하의 경우와 같이 1보다 많은 경우 공변량의 다중 공선 성 문제를 처리하거나 간단히 베타 제로라는 상수없이 이번에는 회귀를 다시 실행하십시오.

  3. However, if the problem still persists, then do a stepwise regression and select the model with a high R squared. But which I cannot recommend to you because it brings about bias in the covariates

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.