약간의 배경
회귀 분석의 해석에 대해 연구하고 있지만 r, r 제곱 및 잔차 표준 편차의 의미에 대해 실제로 혼란스러워합니다. 나는 정의를 알고있다 :
특성
r은 산점도에서 두 변수 사이의 선형 관계의 강도와 방향을 측정합니다
R 제곱은 데이터가 적합 회귀선에 얼마나 가까운 지에 대한 통계적 측정 값입니다.
잔차 표준 편차는 선형 함수 주위에 형성된 점의 표준 편차를 설명하는 데 사용되는 통계 용어이며 측정되는 종속 변수의 정확도 추정치입니다. ( 단위가 무엇인지 모르면 여기에있는 단위에 대한 정보가 도움이 될 것입니다 )
(출처 : here )
질문
특성화를 "이해"하지만이 용어가 데이터 세트에 대한 결론을 도출하는 방법을 이해합니다. 나는 어쩌면이 내 질문 (답변을 가이드 역할을 할 수 여기에 약간의 예를 삽입합니다 자신!의 예를 사용 주시기를)
예
이것은 howework 질문하지 않습니다, 그러나 나는 간단한 예를 얻기 위해 내 책에서 검색 (내가 분석하고있는 현재 데이터 세트가 너무 복잡하여 여기에 표시 할 수 없습니다)
각각 10 x 4 미터의 20 개의 음모가 넓은 옥수수 밭에서 무작위로 선택되었습니다. 각 플롯에 대해, 식물 밀도 (플롯의 식물 수) 및 평균 cob 중량 (cob 당 곡물의 gm)이 관찰되었다. 결과는 다음 표에 나와 있습니다.
(출처 : 생명 과학 통계 )
╔═══════════════╦════════════╦══╗
║ Platn density ║ Cob weight ║ ║
╠═══════════════╬════════════╬══╣
║ 137 ║ 212 ║ ║
║ 107 ║ 241 ║ ║
║ 132 ║ 215 ║ ║
║ 135 ║ 225 ║ ║
║ 115 ║ 250 ║ ║
║ 103 ║ 241 ║ ║
║ 102 ║ 237 ║ ║
║ 65 ║ 282 ║ ║
║ 149 ║ 206 ║ ║
║ 85 ║ 246 ║ ║
║ 173 ║ 194 ║ ║
║ 124 ║ 241 ║ ║
║ 157 ║ 196 ║ ║
║ 184 ║ 193 ║ ║
║ 112 ║ 224 ║ ║
║ 80 ║ 257 ║ ║
║ 165 ║ 200 ║ ║
║ 160 ║ 190 ║ ║
║ 157 ║ 208 ║ ║
║ 119 ║ 224 ║ ║
╚═══════════════╩════════════╩══╝
먼저 산포도를 만들어 데이터를 시각화합니다.
따라서 r, R 2 및 잔차 표준 편차를 계산할 수 있습니다 .
먼저 상관 테스트 :
Pearson's product-moment correlation
data: X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.9770972 -0.8560421
sample estimates:
cor
-0.9417954
둘째, 회귀선의 요약 :
Residuals:
Min 1Q Median 3Q Max
-11.666 -6.346 -1.439 5.049 16.496
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 316.37619 7.99950 39.55 < 2e-16 ***
X -0.72063 0.06063 -11.88 5.89e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared: 0.887, Adjusted R-squared: 0.8807
F-statistic: 141.3 on 1 and 18 DF, p-value: 5.889e-10
따라서이 테스트를 기반으로합니다. r = -0.9417954
, R- 제곱 : 0.887
및 잔차 표준 오류 : 8.619
이 값은 데이터 집합에 대해 무엇을 알려줍니까? ( 질문 참조 )