R : Anova 및 선형 회귀


9

통계에 익숙하지 않으며 분산과 선형 회귀의 차이점을 이해하려고합니다. 나는 이것을 탐구하기 위해 R을 사용하고 있습니다. 나는 왜 분산과 회귀가 다르지만 여전히 똑같고 어떻게 시각화 될 수 있는지에 대한 다양한 기사를 읽었습니다.

ANOVA는 그룹 내 분산과 그룹 간 분산을 비교하여 테스트 된 그룹간에 차이가 있는지 여부를 확인합니다. ( https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA )

선형 회귀 분석의 경우이 포럼에서 b (기울기) = 0인지 여부를 테스트 할 때 동일한 테스트를 수행 할 수 있다고 게시 한 게시물을 찾았 습니다. )

둘 이상의 그룹에 대해 다음과 같은 웹 사이트를 발견했습니다.

귀무 가설은 다음과 같습니다.H0:µ1=µ2=µ3

선형 회귀 모형은 다음과 같습니다.y=b0+b1X1+b2X2+e

그러나 선형 회귀의 결과는 한 그룹에 대한 절편과 다른 두 그룹에 대한 절편의 차이입니다. ( http://www.real-statistics.com/multiple-regression/anova-using-regression/ )

나를 위해, 이것은 실제로 절편이 비교되고 경사가 아닌 것처럼 보입니다.

그들은 슬로프보다는 차단을 비교 또 다른 예는 여기에서 찾을 수 있습니다 : ( http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/ )

나는 선형 회귀 분석에서 실제로 비교되는 것을 이해하기 위해 고심하고 있습니까? 경사면, 절편 또는 둘 다?


답변:


16

이것은 실제로 절편이 비교되고 경사가 아닌 것처럼 보입니다.

당신의 혼란은 당신이 의미하는 절편과 경사면 (무엇을 가로 채고? 무엇의 경사?)에 대해 분명히 조심해야한다는 사실과 관련이 있습니다.

회귀에서 0-1 더미의 계수의 역할은 기울기 절편의 차이 로 생각할 수 있습니다 .

2- 표본 사례를 고려하여 가능한 한 단순화합니다.

우리는 여전히 두 개의 샘플로 일원 분산 분석을 수행 할 수 있지만 본질적으로 양측 두 샘플 t- 검정 (동일 분산)과 동일합니다.

인구 상황의 다이어그램은 다음과 같습니다.

두 그룹은 회귀, 인구 상황으로 의미

경우 다음 모델 선형 인구는δ=μ2μ1

y=μ1+δx+e

그래서 때 (우리가 그룹 1에있을 때의 경우 임)의 평균 이다 때 (우리는 그룹에있을 때 2) 의 평균 은 입니다.x=0yμ1+δ×0=μ1x=1yμ1+δ×1=μ1+μ2μ1=μ2

그것은 기울기의 계수 ( 이 경우 )와 평균의 차이 (그리고 그 평균을 절편으로 생각할 수 있습니다)는 같은 양입니다.δ

구체성을 돕기 위해 다음 두 가지 샘플이 있습니다.

Group1:  9.5  9.8 11.8
Group2: 11.0 13.4 12.5 13.9

어떻게 보이나요?

샘플 플롯

평균 차이의 검정은 어떻게 생겼습니까?

t- 검정으로 :

    Two Sample t-test

data:  values by group
t = -5.0375, df = 5, p-value = 0.003976
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -4.530882 -1.469118
sample estimates:
mean in group g1 mean in group g2 
             9.9             12.9 

회귀로 :

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   9.9000     0.4502  21.991 3.61e-06 ***
groupg2       3.0000     0.5955   5.037  0.00398 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 0.7797 on 5 degrees of freedom
Multiple R-squared:  0.8354,    Adjusted R-squared:  0.8025 
F-statistic: 25.38 on 1 and 5 DF,  p-value: 0.003976

회귀에서 절편 항이 그룹 1의 평균이고 그룹 g2 계수 ( '경사'계수)가 그룹 평균의 차이임을 알 수 있습니다. 한편 회귀에 대한 p- 값은 t- 검정에 대한 p- 값과 같습니다 (0.003976)


이 매우 유용한 예에 대해 대단히 감사합니다. 나는 여전히 열린 질문이 있다는 것을 깨달았습니다. 왜 기울기가 μ2-μ1로 표시되는지 이해할 수 없습니까? 기울기가 m = delta Y / delta X로 정의되어 있지 않습니까?
Paul

2
그렇습니다. 그러나Δx=10=1Δy=(μ1+δ×1)(μ1+δ×0)=δ=μ2μ1 그래서 Δy/Δx=(μ2μ1)/1=μ2μ1. 즉, 0/1로 코딩하면 기울기가 차이가됩니다.
Glen_b-복지 모니카

왜 경사가 차이와 같은지에 대한 그래픽 그림을 +1하면 많은 도움이되었습니다!
Haitao Du
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.