선형 회귀 F 통계량, R 제곱 및 잔차 표준 오차는 무엇을 알려줍니까?


14

다음 용어의 선형 회귀 컨텍스트와 관련하여 의미의 차이에 대해 정말 혼란 스럽습니다.

  • F 통계
  • R 제곱
  • 잔차 표준 오차

선형 회귀와 관련된 다른 용어에 대한 통찰력을 제공하는 이 webstie 를 찾았 지만 위에서 언급 한 용어는 (내가 이해하는 한) 상당히 많이 보입니다. 나는 내가 읽은 것과 나를 혼란스럽게 한 것을 인용 할 것이다.

잔차 표준 오차는 선형 회귀 적합의 품질을 측정합니다 ....... 잔차 표준 오차는 반응 (dist)이 실제 회귀선에서 벗어나는 평균 량입니다.

1. 이것은 실제로 lm 라인에서 관찰 된 값의 평균 거리입니까?

R 제곱 통계량은 모형이 실제 데이터를 얼마나 잘 적합시키는 지 측정합니다.

2. RSE가 관측 된 점이 회귀선에서 얼마나 멀리 떨어져 있는지 알려 주면 RSE가 낮아서 실제로 "모델이 관측 된 데이터 점을 기반으로 잘 맞습니다"라고 말하고 있기 때문에 혼란스러워지고 있습니다. 모델이 적합하므로 R 제곱과 RSE의 차이점은 무엇입니까?

F- 통계량은 예측 변수와 반응 변수 사이에 관계가 있는지 여부를 나타내는 좋은 지표입니다.

3. 비선형 인 강한 관계를 나타내는 F 값을 가질 수있어 RSE가 높고 R 제곱이 낮다는 것이 사실입니까?


Q 3 F 값은 비선형 관계를 나타내지 않습니다. 그것은 두 변수 사이에 종속적이든 독립적이든 실질적 (일관된) 관계가 있는지를 나타내는 비율입니다.
Subhash C. Davar 2016 년

비선형 또는 선형 관계의 성격을 알려주지는 않습니다.
Subhash C. Davar 2016 년

답변:


12

이 항을 이해하는 가장 좋은 방법은 손으로 회귀 계산을 수행하는 것입니다. 밀접하게 관련된 두 가지 답변 ( herehere )을 작성했지만 특정 사례를 이해하는 데 완전히 도움이되지는 않습니다. 그럼에도 불구하고 그들을 통해 읽어보십시오. 어쩌면 그들은 이러한 용어를 더 잘 개념화하는 데 도움이 될 것입니다.

R2R2RSE

  1. SStotal
  2. SSresidual
  3. 제곱의 모형 합 ( SSmodel )

각 모델은 모델이 데이터를 얼마나 잘 설명하는지 평가하고 데이터 점에서 적합 모델까지의 제곱 거리의 합입니다 (아래 그림에서 빨간색 선으로 표시).

SStotal 얼마나 잘 맞는 평균 데이터를 평가한다. 왜 그럴까요? 평균은 우리가 적합 할 수있는 가장 간단한 모형이므로 최소 제곱 회귀선을 비교할 모형으로 사용됩니다. cars데이터 세트를 사용한이 플롯 은 다음을 보여줍니다.

여기에 이미지 설명을 입력하십시오

SSresidual

여기에 이미지 설명을 입력하십시오

SSmodelSStotalSSresidual

여기에 이미지 설명을 입력하십시오

질문에 답하기 위해 먼저 모델로 시작하여 참조로 이해하고자하는 용어를 계산해 보겠습니다.

# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares

제곱합은 개별 데이터 포인트와 모델 간의 거리를 제곱 한 것입니다.

# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model

평균 제곱은 자유도에 의해 평균 된 제곱의 합입니다.

# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model

당신의 질문에 대한 나의 답변 :

Q1 :

  1. 이것은 실제로 lm 라인에서 관찰 된 값의 평균 거리입니까?

RSEMSresidual

# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se  

SSresidualMSresidual SSresidualRSE모형에서 관측 된 데이터의 평균 거리를 나타냅니다. 직관적으로, 거리가 더 작 으면 모델에 적합하기 때문에 완벽하게 이해됩니다.

Q2 :

  1. RSE가 관측 포인트가 회귀선에서 얼마나 멀리 떨어져 있는지 알려 주면 RSE가 낮아서 실제로 "모델이 관측 된 데이터 포인트를 기반으로 잘 맞습니다"라고 말하여 모델이 얼마나 잘 맞는지 혼란스러워집니다. R 제곱과 RSE의 차이점은 무엇입니까?

R2SSmodelSStotal

# R squared
r.sq <- ss.model/ss.total
r.sq

R2SStotalSSmodel

RSER2RSE

R2

Q3 :

  1. RSE가 높고 R 제곱이 낮도록 선형이 아닌 강한 관계를 나타내는 F 값을 가질 수 있다는 것이 사실입니까?

FMSmodelMSresidual

# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F 

F

세 번째 질문은 이해하기 약간 어렵지만 제공 한 견적에 동의합니다.


3

(2) 당신은 그것을 올바르게 이해하고 있으며, 개념에 어려움을 겪고 있습니다.

R2

R2


0

Chris가 위에서 대답 한 내용을 보완하기 위해 :

F- 통계량은 모형 평균 제곱과 잔차 평균 제곱의 나눗셈입니다. 회귀 모형을 적합시킨 후 Stata와 같은 소프트웨어도 F- 통계량과 관련된 p- 값을 제공합니다. 이를 통해 모형 계수가 0이라는 귀무 가설을 검정 할 수 있습니다. 이것을 "모델 전체의 통계적 유의성"으로 생각할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.