선형 회귀가 통계적으로 유의하지만 r 제곱이 매우 낮다는 것은 무엇을 의미합니까?


14

모델이 개별 데이터 포인트를 예측하는 데는 좋지 않지만 확고한 추세를 설정했음을 의미한다는 것을 이해합니다 (예 : x가 올라가면 y가 올라갑니다).


9
매우 큰 표본 크기를 제안 할 수 있습니다.
Henry

2
R 제곱에는 수하물이 있습니다. stats.stackexchange.com/questions/13314/…
EngrStudent-복직 모니카

답변:


27

데이터에서 분산의 작은 부분을 설명 할 수 있음을 의미합니다. 예를 들어, 대학 학위가 급여에 영향을 미친다는 것을 알 수 있지만 동시에 작은 요소 일뿐입니다. 귀하의 급여에 영향을 미치는 다른 많은 요소가 있으며, 대학 학위의 기여는 매우 적지 만 감지 가능합니다.

실질적으로 대학 학위가 평균 급여를 매년 $ 500 씩 증가시키는 반면, 평균 급여 편차는 $ 10K입니다. 따라서 많은 대학 교육을받은 사람들이 교육을받지 않은 사람들보다 월급이 낮으며 예측 모델의 가치가 낮습니다.


11

그것은 "돌이킬 수없는 오류가 높다"는 것을 의미합니다. 즉, 우리가 할 수있는 최선의 작업은 (선형 모델로) 제한됩니다. 예를 들어, 다음 데이터 세트 :

data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)

이 데이터 세트의 트릭은 하나의 값 이 주어지면 너무 다른 y 값 이 너무 많아서 모든 값을 만족시킬 수있는 좋은 예측을 할 수 없다는 것입니다. 동시에 xy 사이에는 "강력한"선형 상관 관계가 있습니다. 선형 모델에 적합하면 유의 한 계수를 얻을 수 있지만 R 제곱은 낮습니다.엑스와이엑스와이

fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)

Call:
lm(formula = data[, 2] ~ data[, 1])

Residuals:
     Min       1Q   Median       3Q      Max 
-203.331  -59.647   -1.252   68.103  195.669 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  123.910      8.428   14.70   <2e-16 ***
data[, 1]     80.421      4.858   16.56   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared:  0.2814,    Adjusted R-squared:  0.2804 
F-statistic: 274.1 on 1 and 700 DF,  p-value: < 2.2e-16

여기에 이미지 설명을 입력하십시오



3

선형 회귀가 통계적으로 유의하지만 r 제곱이 매우 낮다는 것은 무엇을 의미합니까?

그것은 독립 변수와 종속 변수 사이에 선형 관계가 있지만이 관계에 대해 이야기 할 가치가 없을 수도 있음을 의미합니다.

그러나 관계의 의미는 검사 대상에 따라 달라 지지만 일반적으로 통계적 유의성이 관련성과 혼동되어서는 안된다는 의미로 취할 수 있습니다.

충분히 큰 표본 크기를 사용하면 가장 사소한 관계조차도 통계적으로 유의 한 것으로 판명 될 수 있습니다.


1
실제로 선형 회귀는 매개 변수에서 선형을 의미합니다. 원시 종속 변수를 변환 할 수 있으며 여전히 선형 회귀가 있습니다. 나는 당신이 통계적 의미가 있다고 생각하는 것에 약간 당황합니다. 나에게 그것은 모수 추정치가 크다는 것을 의미합니다.
Michael R. Chernick

^ 유의성은 결과가 순전히 우연이고 예측 변수와 종속 변수간에 관계가 없음을 나타냅니다. 표본 크기가 작고 결과가 유의하면 모수 추정값이 큽니다. 그러나 엄청나게 큰 표본의 경우 매우 작은 모수 추정값으로도 중요한 결과를 얻을 수 있습니다. 여기에서 시도하십시오 : danielsoper.com/statcalc/calculator.aspx
faustus

당신이 말하는 것은 추론에 대한 일반적인 설명처럼 들립니다. 그러나 통계적 유의성은 임계 값 (들)이 분석가가 선택한 특정 유의 수준 (예 : 0.05. 0.01 등)에 의존하는 임계 값을 초과하는 것과 관련된 특정 용어입니다. 샘플 크기는 또 다른 요소입니다. 회귀 분석에서는 여러 가지 가설 (개별 회귀 계수의 중요성과 관계가 없음을 테스트 함)을 테스트하고 있으며 가능한 여러 모델 중에서 선택하는 단계적 절차를 수행하면 복잡 할 수도 있습니다.
Michael R. Chernick

1
통계는 부분 과학과 예술이지만 수학적 원리에 기초합니다.
Michael R. Chernick

2
@MichaelChernik 조금 더 자세히 설명해 주시겠습니까? 나는 faustus에 동의하고 (사실 나는 비슷한 대답을했지만) 당신의 요점을 이해하지 못합니다. 선형 회귀 분석에서 유의성 (개별 회귀 계수의 중요성 또는 전체 회귀)은 관계가 없다는 가설 (정확히 0)에 대해 검정됩니다. 작다. (계속)
Luca Citi

2

이를 표현하는 또 다른 방법은 개별 수준이 아니라 인구 수준에서 자신있게 변화를 예측할 수 있다는 것을 의미합니다. 즉, 개별 데이터에는 차이가 크지 만 충분히 큰 샘플을 사용하면 전체적인 효과를 볼 수 있습니다. 일부 정부 건강 조언이 개인에게 도움이되지 않는 이유가 있습니다. 정부는 때때로 일부 활동이 많을수록 전체 인구의 사망이 더 많다는 것을 알 수 있기 때문에 행동해야 할 필요성을 느낀다. 그들은 이러한 삶을 '구원하는'조언이나 정책을 만들어냅니다. 그러나 개인 반응의 다양성이 높기 때문에 개인은 개인적으로 어떤 이점도 볼 수 없을 것입니다. 그러나 이것은 인구 집계에 숨겨져 있습니다). 개인이 '건강에 해로운'활동으로부터 혜택을 얻는다면 (예를 들어 즐거움), 조언을 따르면 평생 동안이 명확한 즐거움을 잊었을 수 있지만, 실제로 그 상태로 고통 받았 든 아니든 개인적으로 변하지는 않을 것입니다.


아주 좋은 예입니다!
kjetil b halvorsen

아르 자형2
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.