r, r 제곱 및 잔차 표준 편차는 선형 관계에 대해 무엇을 알려줍니까?


13

약간의 배경
회귀 분석의 해석에 대해 연구하고 있지만 r, r 제곱 및 잔차 표준 편차의 의미에 대해 실제로 혼란스러워합니다. 나는 정의를 알고있다 :

특성

r은 산점도에서 두 변수 사이의 선형 관계의 강도와 방향을 측정합니다

R 제곱은 데이터가 적합 회귀선에 얼마나 가까운 지에 대한 통계적 측정 값입니다.

잔차 표준 편차는 선형 함수 주위에 형성된 점의 표준 편차를 설명하는 데 사용되는 통계 용어이며 측정되는 종속 변수의 정확도 추정치입니다. ( 단위가 무엇인지 모르면 여기에있는 단위에 대한 정보가 도움이 될 것입니다 )

(출처 : here )

질문
특성화를 "이해"하지만이 용어가 데이터 세트에 대한 결론을 도출하는 방법을 이해합니다. 나는 어쩌면이 내 질문 (답변을 가이드 역할을 할 수 여기에 약간의 예를 삽입합니다 자신!의 예를 사용 주시기를)


이것은 howework 질문하지 않습니다, 그러나 나는 간단한 예를 얻기 위해 내 책에서 검색 (내가 분석하고있는 현재 데이터 세트가 너무 복잡하여 여기에 표시 할 수 없습니다)

각각 10 x 4 미터의 20 개의 음모가 넓은 옥수수 밭에서 무작위로 선택되었습니다. 각 플롯에 대해, 식물 밀도 (플롯의 식물 수) 및 평균 cob 중량 (cob 당 곡물의 gm)이 관찰되었다. 결과는 다음 표에 나와 있습니다.
(출처 : 생명 과학 통계 )

╔═══════════════╦════════════╦══╗
 Platn density  Cob weight   
╠═══════════════╬════════════╬══╣
           137         212   
           107         241   
           132         215   
           135         225   
           115         250   
           103         241   
           102         237   
            65         282   
           149         206   
            85         246   
           173         194   
           124         241   
           157         196   
           184         193   
           112         224   
            80         257   
           165         200   
           160         190   
           157         208   
           119         224   
╚═══════════════╩════════════╩══╝

먼저 산포도를 만들어 데이터를 시각화합니다. 따라서 r, R 2 및 잔차 표준 편차를 계산할 수 있습니다 . 먼저 상관 테스트 :
여기에 이미지 설명을 입력하십시오

    Pearson's product-moment correlation

data:  X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9770972 -0.8560421
sample estimates:
       cor 
-0.9417954 

둘째, 회귀선의 요약 :

Residuals:
    Min      1Q  Median      3Q     Max 
-11.666  -6.346  -1.439   5.049  16.496 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 316.37619    7.99950   39.55  < 2e-16 ***
X            -0.72063    0.06063  -11.88 5.89e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared:  0.887, Adjusted R-squared:  0.8807 
F-statistic: 141.3 on 1 and 18 DF,  p-value: 5.889e-10

따라서이 테스트를 기반으로합니다. r = -0.9417954, R- 제곱 : 0.887및 잔차 표준 오류 : 8.619 이 값은 데이터 집합에 대해 무엇을 알려줍니까? ( 질문 참조 )


3
"정의 (definition)"라고 부르는 것은 단순한 특성화이므로 해석 및 적용 방법에 따라 오도 될 수 있습니다. 실제 정의는 정량적이고 정확합니다.
whuber

내가 사용했던 소스는 이러한 정의라고 불렀지 만, 문맥 "특성"이 없다면 아마도 더 나을 것입니다.
KingBoomie

조각 : R- 제곱은 일반적으로 예측 변수에 의해 설명 된 분산의 비율로 설명되므로 1에 가까울수록 좋습니다. 잔차 표준 편차의 단위는 반응 변수의 단위 인 잔차의 단위 여야합니다.
alistaire

감사합니다! @alistaire 실제로 이것은 우리가 Original points의 y 값과 예측 된 포인트의 y 값을 비교하기 때문에 hahah를 의미합니다
KingBoomie

David가 그의 대답에서 제안한대로 잔차를 플로팅해야합니다.
HelloWorld

답변:


5

이러한 통계는 관계에 선형 구성 요소가 있는지 여부에 대해 알려줄 수 있지만 관계가 엄격하게 선형인지 여부에 대해서는별로 설명하지 않습니다. 작은 2 차 성분과의 관계는 0.92의 r ^ 2를 가질 수 있습니다. 예측 된 함수로서 잔차 그림이 드러날 수 있습니다. Galileo의 https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html 실험에서 상관 관계는 매우 높지만 관계는 분명히 비선형입니다.


5

다음은 첫 번째 답변 관련 문제에 대한 피드백을 얻은 후 두 번째 답변입니다.

r|r||r|

R2r2R2

rR2rrR2rR2

잔차 표준 오차는 예측 된 회귀선을 중심으로 한 정규 분포의 표준 편차이며 실제로 관측 된 값의 분포를 나타냅니다. 다시 말해, 새로운 음모에 대한 식물 밀도 만 측정하는 경우 적합 모형의 계수를 사용하여 코브 무게를 예측할 수 있습니다. 이것이 분포의 평균입니다. RSE는 해당 분포의 표준 편차이므로 실제로 관측 된 cob weight가 모델에 의해 예측 된 값에서 벗어나는 정도를 측정합니다. 이 경우 ~ 8의 RSE는 cob weight의 샘플 표준 편차와 비교되어야하지만 RSE가 샘플 SD에 비해 작을수록 모델이 더 예측 적이거나 적절합니다.


@ whuber이 질문에 대한 다른 답변은 아직 없으므로 다른 시도를하기로 결정했습니다. 이전 답변을 삭제하지 않고 모든 수하물로 새로운 것을 작성하기로 결정했습니다 (복사 한 RSE 단락 제외). 당신이 시간이 있다면 나는이 두 번째 시도에 대한 의견에 정말 감사드립니다. 모델 평가에 대한 나의 일반적인 접근 방식은 목적이 일반적으로 예측되기 때문에 교차 검증 및 홀드 아웃 세트이지만, 이러한 메트릭을 이해하고 싶습니다.
Johan Falkenjack

2
|r|rρ
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.