간단한 선형 회귀 출력 해석


20

두 변수의 자연 로그에 대한 간단한 선형 회귀 분석을 수행하여 변수의 상관 관계를 확인했습니다. 내 결과는 다음과 같습니다.

R^2 = 0.0893

slope = 0.851

p < 0.001

혼란 스러워요. 상기 찾고 값, 나는 두 변수가되는 말을 하지 너무 가까이 있기 때문에, 상관 관계가 . 그러나 회귀선의 기울기는 거의 (플롯에서 거의 수평 인 것처럼 보이지만)이며 p- 값은 회귀가 매우 중요 함을 나타냅니다. 0 1아르 자형201

이것은 두 변수 가 서로 밀접하게 관련 되어 있음을 의미합니까 ? 그렇다면 값은 무엇을 나타 냅니까?아르 자형2

Durbin-Watson 통계는 내 소프트웨어에서 테스트되었으며 귀무 가설 ( )을 기각하지 않았다고 합니다. 나는 이것이 변수 사이의 독립성을 테스트했다고 생각했다 . 이 경우 변수 는 개별 조류의 측정치 이므로 변수가 종속적이라고 기대합니다 . 개인의 신체 상태를 결정하기 위해 게시 된 방법의 일부로이 회귀를 수행하고 있으므로이 방법으로 회귀를 사용하는 것이 합리적이라고 가정했습니다. 그러나 이러한 결과를 감안할 때이 조류에 대해서는이 방법이 적합하지 않다고 생각합니다. 이것이 합리적인 결론처럼 보입니까?2 21.35722


1
더빈 왓슨 통계량 여부를 확인한다 : 직렬 관계에 대한 테스트이다 인접 오차항은 서로 연관된다. X와 Y의 상관 관계에 대해서는 아무 것도 말하지 않습니다! 테스트 실패는 기울기와 p- 값을주의해서 해석해야 함을 나타냅니다.
whuber

그래. 그것은 두 변수 자체가 상관 관계가 있는지 여부보다 조금 더 의미가 있습니다 ... 결국, 나는 그것이 회귀를 사용하여 찾으려고 생각했습니다. 그리고 테스트에 실패하면 기울기를 해석하는 데 신중해야 함을 나타내며이 경우 p- 값이 더 의미가 있습니다! 감사합니다 @ whuber!
Mog

1
특히 표본 크기가 큰 경우 관계가 약한 경우에도 경사를 추가하는 것이 매우 중요합니다 (p- 값 <.001). 이것은 기울기가 (심지어 중요하더라도) 관계의 강도에 대해 아무 것도 말하지 않기 때문에 대부분의 대답에서 암시되었습니다.
Glen

관계의 강도를 결정 하려면 이 필요합니다 . stats.stackexchange.com/a/265924/99274 도 참조하십시오 . n
Carl

답변:


22

기울기의 추정 값 자체가 관계의 강도를 나타내지는 않습니다. 관계의 강도는 오차 분산의 크기와 예측 변수의 범위에 따라 다릅니다. 또한 중요한 값이 반드시 강력한 관계가 있음을 나타내지는 않습니다. P는 - 값은 단순히 기울기가 크게 얻을 것이다 가정에서 아주 작은 출발 (안 실질적인 중요성을 예를 들어 사람), 정확히 0이 충분히 큰 표본 크기에 대한 여부를 테스트하고 P는 - 값을.

사용자가 제시 한 세 량 중, 상기 결정 계수 의 관계의 강도의 최대 표시를 제공한다. 귀하의 경우, R 2 = .089 는 반응 변수의 변동의 8.9 % 가 예측 변수와의 선형 관계로 설명 될 수 있음을 의미합니다. "큰" R 2를 구성하는 것은 분야에 따라 다르다. 예를 들어, 사회 과학에서 R 2 = .2 는 "대형"이지만 공장 설정과 같은 통제 된 환경에서는 R 2 > .9아르 자형2아르 자형2=.0898.9%아르 자형2아르 자형2=.2아르 자형2>.9"강한"관계가 있다고 말할 수도 있습니다. 대부분의 상황에서 는 매우 작은 R 2 이므로 약한 선형 관계가 있다는 결론은 합리적입니다..089아르 자형2


고마워 매크로. 매우 유용한 답변. p- 값이 정확히 무엇을 테스트하는지에 대한 부분을 포함하게되어 기쁩니다. 기울기가 1에 얼마나 가까운 지 고려하면 p- 값이 너무 낮다는 것은 많은 의미가 있습니다. 귀하의 답변과 @ jedfrancis에 비추어 볼 때 r ^ 2 값은 회귀선 주변의 데이터 포인트의 '클라우드'를 나타냅니다. 우수한! 지금은 훨씬 더 명확합니다!
Mog

@ 매크로 (+1), 정답입니다. 그러나 "관계의 강도"는 "절편의 크기"에 어떻게 의존 하는가? AFAIK 절편은 선형 관계의 상관 관계 또는 "강도"에 대해 전혀 아무 것도 말하지 않습니다.
whuber

@ whuber, 당신 말이 맞습니다-절편은 관련이 없으며 분명히 상관 관계를 변경하지 않습니다-회귀 함수 y = x 에 대해 생각하고 두 번째 함수 가 더 강한 관계라고 생각했습니다 ( 더 많은 양의 y 의 크기 는 후자의 경우 x 로 인한 것이기 때문에 다른 모든 것은 동일하게 유지 됩니다. 내가 생각하기에 지금은 이해가되지 않습니다. 게시물을 수정했습니다. 와이=10000+엑스와이=엑스와이엑스
매크로

4
@macro 훌륭한 답변이지만, 관계가 비선형 적이며 특히 비단 조적 인 경우 강한 관계에서도 R ^ 2가 매우 낮을 수 있다고 강조합니다 (이 주제를 처음 접하는 사람들에게는). 내가 가장 좋아하는 예는 스트레스와 시험 점수의 관계입니다. 매우 낮은 응력과 매우 높은 응력은 중간 응력보다 더 나쁜 경향이 있습니다.
Peter Flom-Monica Monica 복원

1
@macro 그래, 당신의 대답은 좋았지 만, 많은 통계를 모르는 사람들과 함께 일해 왔는데 어떤 일이 일어나는지 보았습니다 ... 때때로 우리가 말하는 것은 그들이 듣는 것이 아닙니다!
Peter Flom-Monica Monica 복원

14

종속 변수의 많은 변화가 모델로 설명하면 방법에 대해 설명합니다. 그러나 R 2 와 종속 변수의 원래 값과 적합치 간의 상관 관계를 해석 할 수 있습니다 . 결정 계수 R 2 의 정확한 해석 및 도출은 여기 에서 찾을 수 있습니다 .아르 자형2아르 자형2아르 자형2

결정 계수는 관측 값의 제곱 피어슨 상관 계수의 등가임을 증명 및 피팅 값 (Y) 볼 수 여기 .와이나는y^i

판정 또는 계수는 종속 변수를 설명하는 모델의 강도를 나타낸다. 귀하의 경우, R 2 = 0.089 입니다. 이것은 모델이 종속 변수의 8.9 % 변동을 설명 할 수 있다는 것입니다. 또는, 사용자의 사이의 상관 계수 Y I 및 장착 값 Y 0.089이다. 좋은 R 2를 구성하는 것은 규율에 따라 다릅니다.R2R2=0.089y나는y^나는R2

마지막으로, 질문의 마지막 부분으로. Durbin-Watson 검정을 통해 종속 변수와 독립 변수 사이의 상관 관계에 대해 말할 수는 없습니다. Durbin-Watson 테스트는 직렬 상관 관계를 테스트합니다. 오류 용어가 서로 상관되어 있는지 검사하기 위해 수행됩니다.


9

값은 데이터에 많은 변화가 장착 된 모델에 의해 설명하는 방법을 알려줍니다.아르 자형2

연구에서 낮은 값은 데이터가 아마도 회귀선 주위에 널리 퍼져 있음을 시사합니다. 이는 회귀 모델이 데이터 변동의 8.9 % 만 설명 할 수 있음을 의미합니다.아르 자형2

선형 모델이 적절한 지 확인 했습니까? 이를 사용하여 모형에 대한 데이터의 적합도를 평가할 수 있으므로 잔차 분포를 살펴보십시오. 이상적으로 잔차는 값 과의 관계를 나타내지 않아야 하며, 그렇다면 x 값 과의 관계를 적절히 조정하거나보다 적합한 모형을 적합하게 생각할 수 있습니다.엑스


감사합니다 @jed. 예, 잔차의 정규성을 확인했으며 모두 양호했습니다. 데이터가 해당 회귀선 주위에 널리 퍼져 있다는 제안은 정확합니다. 데이터 점은 소프트웨어에 의해 그려진 회귀선 주위의 구름처럼 보입니다.
Mog

1
@jed 사이트에 오신 것을 환영하며 답장을 보내 주셔서 감사합니다! X와 Y가 측정되는 단위에 의존하지 않지만 기울기는 상관하기 때문에 기울기 자체는 부호와는 별도로 상관 관계에 대해 거의 아무 것도 언급하지 않습니다.
whuber

1
@whuber는 값 것을 말하고 기울기가 않습니다 하지 변수를 표준화하지 않는 한 당신에게 협회의 힘에 대해 아무것도 말해. shabbychefs의 답변을 참조하십시오.
wolf.rauch

@ wolf.rauch gotcha
jedfrancis

@jed 답장을 정정하면 좋을 것입니다.
whuber

7

선형 회귀의 경우 적합 기울기는 상관 관계가됩니다 (제곱하면 결정 계수를 제공합니다. 아르 자형2) 곱하기 회귀의 경험적 표준 편차 ( 와이)를 회귀 변수의 경험적 표준 편차로 나눈 값 엑스). 의 스케일링에 따라엑스와이, 1과 같지만 임의로 작은 적합 기울기를 가질 수 있습니다. 아르 자형2 값.

요컨대, 종속 변수와 독립 변수의 척도가 서로 같아야하는 경우를 제외하고 기울기는 모형 '적합'의 좋은 지표가 아닙니다.


1

나는 이미 주어진 대답을 좋아하지만 다른 (그리고 더 혀인) 접근법으로 보완 해 드리겠습니다.

얼굴의 펀치가 두통과 관련이 있는지 알아 내려고하는 1000 명의 무작위 사람들로부터 많은 관찰을 수집한다고 가정하십시오.

Headaches=β0+β1Punch_in_the_face+ε

ε contains all the omitted variables that produce headaches in the general population: stress, how contaminated your city is, lack of sleep, coffee consumption, etc.

For this regression, the β1 might be very significant and very big, but the R2 will be low. Why? For the vast majority of the population, headaches won't be explained much by punches in the face. In other words, most of the variation in the data (i.e. whether people have few or a lot of headaches) will be left unexplained if you only include punches in the face, but punches in the face are VERY important for headaches.

Graphically, this probably looks like a steep slope but with a very big variation around this slope.


0

@Macro had a great answer.

기울기의 추정 값 자체가 관계의 강도를 나타내지는 않습니다. 관계의 강도는 오차 분산의 크기와 예측 변수의 범위에 따라 다릅니다. 또한 중요한 pp-value가 반드시 강력한 관계가 있음을 나타내지는 않습니다. pp-value는 단순히 기울기가 0인지 테스트합니다.

OP를 설명하는 사례를 보여주는 숫자 예제를 추가하고 싶습니다.

  • 낮은 아르 자형2
  • p- 값에 유의미한
  • 가까운 경사 1.0

    set.seed(6)
    y=c(runif(100)*50,runif(100)*50+10)
    x=c(rep(1,100),rep(10,100))
    plot(x,y)
    
    fit=lm(y~x)
    summary(fit)
    abline(fit)
    
    
    > summary(lm(y~x))
    
    Call:
    lm(formula = y ~ x)
    
    Residuals:
       Min     1Q Median     3Q    Max 
    -24.68 -13.46  -0.87  14.21  25.14 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  25.6575     1.7107  14.998  < 2e-16 ***
    x             0.9164     0.2407   3.807 0.000188 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 15.32 on 198 degrees of freedom
    Multiple R-squared:  0.0682,    Adjusted R-squared:  0.06349 
    F-statistic: 14.49 on 1 and 198 DF,  p-value: 0.0001877
    

여기에 이미지 설명을 입력하십시오

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.