모델이 개별 데이터 포인트를 예측하는 데는 좋지 않지만 확고한 추세를 설정했음을 의미한다는 것을 이해합니다 (예 : x가 올라가면 y가 올라갑니다).
모델이 개별 데이터 포인트를 예측하는 데는 좋지 않지만 확고한 추세를 설정했음을 의미한다는 것을 이해합니다 (예 : x가 올라가면 y가 올라갑니다).
답변:
그것은 "돌이킬 수없는 오류가 높다"는 것을 의미합니다. 즉, 우리가 할 수있는 최선의 작업은 (선형 모델로) 제한됩니다. 예를 들어, 다음 데이터 세트 :
data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)
이 데이터 세트의 트릭은 하나의 값 이 주어지면 너무 다른 y 값 이 너무 많아서 모든 값을 만족시킬 수있는 좋은 예측을 할 수 없다는 것입니다. 동시에 x 와 y 사이에는 "강력한"선형 상관 관계가 있습니다. 선형 모델에 적합하면 유의 한 계수를 얻을 수 있지만 R 제곱은 낮습니다.
fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)
Call:
lm(formula = data[, 2] ~ data[, 1])
Residuals:
Min 1Q Median 3Q Max
-203.331 -59.647 -1.252 68.103 195.669
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 123.910 8.428 14.70 <2e-16 ***
data[, 1] 80.421 4.858 16.56 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared: 0.2814, Adjusted R-squared: 0.2804
F-statistic: 274.1 on 1 and 700 DF, p-value: < 2.2e-16
선형 회귀가 통계적으로 유의하지만 r 제곱이 매우 낮다는 것은 무엇을 의미합니까?
그것은 독립 변수와 종속 변수 사이에 선형 관계가 있지만이 관계에 대해 이야기 할 가치가 없을 수도 있음을 의미합니다.
그러나 관계의 의미는 검사 대상에 따라 달라 지지만 일반적으로 통계적 유의성이 관련성과 혼동되어서는 안된다는 의미로 취할 수 있습니다.
충분히 큰 표본 크기를 사용하면 가장 사소한 관계조차도 통계적으로 유의 한 것으로 판명 될 수 있습니다.
이를 표현하는 또 다른 방법은 개별 수준이 아니라 인구 수준에서 자신있게 변화를 예측할 수 있다는 것을 의미합니다. 즉, 개별 데이터에는 차이가 크지 만 충분히 큰 샘플을 사용하면 전체적인 효과를 볼 수 있습니다. 일부 정부 건강 조언이 개인에게 도움이되지 않는 이유가 있습니다. 정부는 때때로 일부 활동이 많을수록 전체 인구의 사망이 더 많다는 것을 알 수 있기 때문에 행동해야 할 필요성을 느낀다. 그들은 이러한 삶을 '구원하는'조언이나 정책을 만들어냅니다. 그러나 개인 반응의 다양성이 높기 때문에 개인은 개인적으로 어떤 이점도 볼 수 없을 것입니다. 그러나 이것은 인구 집계에 숨겨져 있습니다). 개인이 '건강에 해로운'활동으로부터 혜택을 얻는다면 (예를 들어 즐거움), 조언을 따르면 평생 동안이 명확한 즐거움을 잊었을 수 있지만, 실제로 그 상태로 고통 받았 든 아니든 개인적으로 변하지는 않을 것입니다.