회귀 분석, t- 검정 및 분산 분석은 모든 버전의 일반 선형 모형에 어떤 영향을 미칩니 까?


49

답변:


47

그것들은 모두 회귀 방정식으로 쓰여질 수 있습니다 (아마도 전통적인 형태와 약간 다른 해석이있을 수 있음).

회귀 :

Y=β0+β1X(continuous)+εwhere εN(0,σ2)

t- 검정 :

Y=β0+β1X(dummy code)+εwhere εN(0,σ2)

분산 분석 :

Y=β0+β1X(dummy code)+εwhere εN(0,σ2)

프로토 타입 회귀는 를 연속 변수로 개념화 합니다. 그러나 실제로 에 대해 만들어진 유일한 가정 은 알려진 상수로 구성된 벡터라는 것입니다. 연속 변수 일 수도 있지만 더미 코드 일 수도 있습니다 (즉, 관찰이 표시된 그룹 (예 : 치료 그룹)의 구성원인지 여부를 나타내는 과 의 벡터 ). 따라서 두 번째 방정식에서 는 이러한 더미 코드 일 수 있으며 p- 값은보다 전통적인 형태의 t- 검정과 동일합니다. X 0 1 XXX01X

그러나 베타의 의미는 여기에서 다릅니다. 이 경우 은 제어 그룹의 평균이되고 (더미 변수의 항목은 ) 은 처리 그룹의 평균과 제어 평균의 차이입니다. 그룹. 0 β 1β00β1

이제 t- 테스트가 더 일반적 일지라도 두 그룹만으로 분산 분석을 수행 / 실행하는 것이 합리적이며 세 그룹이 모두 연결되어 있음을 기억하십시오. 3 개의 그룹이있는 분산 분석이있는 경우 작동 방식을 선호하는 경우 그것이 될 것이다 : 그룹 이있을 때 , 그것들을 나타내는 더미 코드가 있습니다. 참조 그룹 (일반적으로 컨트롤 그룹)은 모두에 대해 표시됩니다.g g - 1 0 β 0 β 1 β 2

Y=β0+β1X(dummy code 1)+β2X(dummy code 2)+εwhere εN(0,σ2)
gg10더미 코드 (이 경우 더미 코드 1 및 더미 코드 2). 이 경우 표준 통계 출력과 함께 제공되는 베타 테스트에 대한 t- 검정의 p- 값을 해석하지 않으려 고합니다. 이는 독립적으로 평가할 때 표시된 그룹이 대조군과 다른지 여부 만 나타냅니다 . 즉, 이러한 테스트는 독립적이지 않습니다. 대신 분산 분석표를 구성하고 F- 검정을 수행하여 그룹 평균이 다른지 여부를 평가하려고합니다. 그 가치가 무엇 들어, 베타 단지 전술 한 t 시험 버전과 같이 해석된다 : 제어 / 참조 그룹의 평균이된다 그룹 1의 방법과 기준 그룹과의 차이를 나타내는β0β1β2그룹 2와 참조 그룹의 차이를 나타냅니다.

아래 @whuber의 의견에 비추어, 이것들은 행렬 방정식을 통해서도 표현 될 수 있습니다 : 이런 식으로 표현되는 & 은 길이 벡터입니다 및 길이의 벡터이고, . 는 이제 개의 행과 열이 있는 행렬입니다 . 원형 회귀 분석에는 연속 변수와 절편이 있습니다. 따라서, 사용자의 행렬 열의 일련의 구성되어 각각 나란히 한 벡터

Y=Xβ+ε
YεNβp+1XN(p+1)pXXX변수, 절편을 위해 맨 왼쪽에 의 열이 있습니다. 1

이런 식 으로 그룹으로 분산 분석을 나타내는 경우 그룹을 나타내는 더미 변수가 있고 참조 그룹은 각 더미 변수에서 을 가진 관측치로 표시됩니다 . 위와 같이 여전히 가로 챌 수 있습니다. 따라서, 이다. gg10p=g1


1
ANOVA 방정식은 이 벡터 로 해석되고 오른쪽에 곱한 경우에만 ANOVA (t- 검정 아님)로 가 있습니다. β1
whuber

이것들은 행렬 방정식이 아닙니다. 많은 사람들이 읽지 않기 때문에 나는 여기에서 거의 사용하지 않습니다. 첫 번째 분산 분석은 이전 t- 검정과 동일한 상황을 나타냅니다. 2- 표본 독립 t- 검정을 실행할 수 있다면 ANOVA와 동일한 데이터를 실행할 수 있다고 지적합니다 (많은 사람들이 통계 101 클래스에서 인식 / 기억해야 함). 나는 2 그룹 상황이 회귀 분석으로 이해 될 수있는 유일한 ANOVA 사례가 아님을 명확히하기 위해 3 그룹 아래로 다른 ANOVA 버전을 추가합니다. 그러나 reg 방정식은 이제 다르게 보입니다. 위에서보다 명확한 평행을 유지하려고했습니다.
gung-복직 모니카

내 요점은 당신이하지 않는 것입니다 그것을 행렬 방정식을, ANOVA 당신의 특성이 유용 너무 제한되어 있습니다 : 그것은이다 동일 t- 검정의 당신의 특성에 등이 도움이됩니다보다 더 혼란 스럽다. 더 많은 그룹을 도입하기 시작하면 갑자기 방정식을 변경하는데, 이는 명확하지 않을 수도 있습니다. 행렬 표기법 사용 여부는 물론 사용자에게 달려 있지만 의사 소통을 잘하려면 일관성을 유지해야합니다.
whuber

t-test의 인기있는 정의에서 보여준 방정식에 어떻게 도달하는지에 대해 좀 더 자세히 설명해 주시겠습니까? 그러나 t = (yx-u0) / s에서이 방정식에 도달하는 방법.
Gaurav Singhal

익숙하지 않을 수도 있지만 그렇지 않습니다. 는 나열된 모든 경우에 연속적입니다 (조건부 정상이라고 가정). 에 대한 분포 가정은 없으며 연속적이거나 이분법 적이거나 다단계 범주 형 변수 일 수 있습니다. YX
gung-복직 모니카

16

그것들은 모두 일반적인 선형 모델의 특별한 경우로 쓰여질 수 있습니다.

t- 검정은 ANOVA의 2- 표본 경우입니다. t- 검정 통계량을 제곱 하면 분산 분석에 해당 됩니다.F

분산 분석 모형은 기본적으로 요인 수준이 더미 (또는 지표 ) 변수로 표시 되는 회귀 모형 입니다.

따라서 t- 검정에 대한 모형이 ANOVA 모형의 부분 집합이고 ANOVA가 다중 회귀 모형의 부분 집합 인 경우 회귀 자체 (및 회귀 이외의 다른 것)는 일반 선형 모형 의 부분 집합으로 회귀를 일반적인 회귀 분석 ( '독립'및 '동일 분산')보다 오류 항에 대한보다 일반적인 사양 및 다변량 입니다.Y


다음 은 R에서 수행 된 회귀 모델 의 정규 (등분 산) 두 표본 분석과 가설 검정 의 동등성을 보여주는 예입니다 (실제 데이터는 쌍을 이루는 것으로 보이므로 실제로는 적절한 분석이 아닙니다) :t

> t.test(extra ~ group, var.equal=TRUE, data = sleep) 

    Two Sample t-test

data:  extra by group
t = -1.8608, df = 18, p-value = 0.07919   
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.363874  0.203874
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

위의 p- 값은 0.079입니다. 편도 anova는 다음과 같습니다.

> summary(aov(extra~group,sleep))
            Df Sum Sq Mean Sq F value Pr(>F)  
group        1  12.48  12.482   3.463 0.0792 
Residuals   18  64.89   3.605                 

이제 회귀

> summary(lm(extra ~ group, data = sleep))

(일부 출력 제거)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   0.7500     0.6004   1.249   0.2276  
group2        1.5800     0.8491   1.861   0.0792 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared:  0.1613,    Adjusted R-squared:  0.1147 
F-statistic: 3.463 on 1 and 18 DF,  p-value: 0.07919

'group2'행의 p- 값과 마지막 행의 F- 검정에 대한 p- 값을 비교하십시오. 양측 테스트의 경우, 이들은 동일하며 둘 다 t- 테스트 결과와 일치합니다.

또한, 'group2'에 대한 계수는 두 그룹에 대한 평균의 차이를 나타냅니다.


세 가지 시나리오 모두에서 동일한 p 값을 갖는 것은 마술과 인상적이지만, 이러한 p- 값이 어떻게 계산되는지에 대해 조금 더 설명 할 수 있다면이 답변이 더 흥미로워 질 것 입니다. p- 값 계산을 표시하면 더 유용하게 사용할 수 있는지 알 수 없으므로 결정할 수 있습니다.
Gaurav Singhal

@Gaurav 동일한 모형에서 동일한 가설을 검정하기 때문에 p- 값은 동일합니다. 특정 p- 값을 계산하는 방법에 관심이 있다면 새로운 질문이 될 것입니다 (여기서는 질문에 대한 답변이 아닙니다). 이미 답변을 받았기 때문에 먼저 검색을 시도해도 이러한 질문을 할 수 있습니다.
Glen_b

@Glen_b에게 감사드립니다. 분명한 질문을해서 죄송합니다. 그리고 당신은 여전히 ​​내 질문에 대답했습니다- "동일한 모델 (및 / 또는 데이터)에 대한 동일한 가설". 나는 그들이 같은 가설을 어떻게 테스트하고 있는지에 대해 충분히 생각하지 않았다. 감사합니다
Gaurav Singhal이

2

이 답변 앞서 게시 다소 관련이 있지만,이 문제는 다소 다르다.

다음 선형 모델의 차이점과 유사점에 대해 생각할 수 있습니다.

[Y1Yn]=[1x11x21x31xn][α0α1]+[ε1εn]
[Y1Yn]=[10001000010001000010][α0αk]+[ε1εn]

2
질문에 대한 일부 설명과 의견은 독자들에게 유용 할 것입니다. 지금부터 그들이 어디에서 왔으며 어떻게 질문과 관련이 있는지 추측해야합니다.
Tim

0

Anova는 처리간에 알려지지 않았지만 동일한 분산을 가정 할 때 평균의 평등에 대한 t- 검정과 유사합니다. 이는 분산 분석에서 MSE가 t- 검정에 사용 된 풀링 분산과 동일하기 때문입니다. 동일하지 않은 분산 및 쌍별 t- 검정과 같은 다른 버전의 t- 검정이 있습니다. 이 관점에서 t-test는 더 유연 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.