선형 회귀 분석에서 t- 검정과 분산 분석의 차이점


12

선형 회귀 분석에서 t- 검정과 분산 분석의 차이점이 무엇인지 궁금합니다.

  1. t-test는 기울기와 절편 중 하나가 평균 0을 갖는지 테스트하는 반면 ANOVA는 모든 기울기가 평균 0을 갖는지 테스트합니까? 이것이 그들 사이의 유일한 차이점입니까?
  2. 단순한 선형 회귀 분석에서, 즉 예측 변수가 하나만있는 경우 추정 할 기울기는 하나뿐입니다. 그렇다면 t- 검정과 분산 분석은 동일하며, 그렇다면 다른 통계를 사용한다는 점을 감안할 때 (t- 검정은 t- 통계량을 사용하고 ANOVA는 F- 통계량을 사용함) 어떻게됩니까?

Ad 1) 선형 회귀 분석에서 나는 일반적으로 ANOVA를 모형의 적합도의 척도로 이해합니다. 즉 모형 (회귀선)이 전체 변동성의 상당 부분을 설명하는지 여부를 결정합니다. 모든 경사가 0이되는 것과 같은 질문은 정말 흥미 롭습니다. Ad 2)이 경우 t- 검정 및 회귀 분석에 대해 거의 동일한 p- 값을 얻는 것 같습니다. 정말 재미있는 정리!
Curious

답변:


18

일반 선형 모형을 사용하면 회귀 모형으로 분산 분석 모형을 작성할 수 있습니다. 각각 두 개의 관측치, 즉 벡터 에 네 개의 관측치가있는 두 개의 그룹이 있다고 가정 해 봅시다 . 그러면 과도하게 매개 변수화 된 원래 모델은 . 여기서 는 예측 변수의 매트릭스입니다 (예 : 더미 코드 표시기 변수 : E ( Y ) = X β X ( μ 1 μ 1 μ 2 μ 2 ) = ( 1 1 0 1 1 0 1 0 1 1 0 1 ) ( β 0 β 1 β 2 )yE(y)=XβX

(μ1μ1μ2μ2)=(110110101101)(β0β1β2)

같이 매개 변수를 식별 할 수없는 때문에 순위가 2 ( 는 되돌릴 수 없습니다). 이를 변경하기 위해 (처리 대비) 제약 조건을 도입하여 새로운 모델 : X ( X ) X β 1 = 0((X)X)1(X)E(y)X(X)Xβ1=0E(y)=Xβ

(μ1μ1μ2μ2)=(10101111)(β0β2)

따라서 즉, 은 참조 카테고리 (그룹 1)에서 예상되는 값의 의미를 갖습니다. 즉, 는 참조 카테고리 와의 차이 의 의미를 취합니다 . 그룹이 두 개인 경우 그룹 효과와 관련된 매개 변수가 하나뿐이므로 ANOVA 귀무 가설 (모든 그룹 효과 매개 변수는 0 임)은 회귀 가중치 귀무 가설 (경사 매개 변수는 0)과 같습니다.μ1=β0β0μ2=β0+β2β2μ2μ1

일반 선형 모형 의 검정 은 귀무 가설 하에서 가정 된 값 에 대해 모수 의 선형 조합 를 검정합니다. 선택하면 (기울기 매개 변수에 대한 일반적인 테스트)이라는 가설을 테스트 할 수 있습니다 . 즉, 여기에서 . 추정량은 . 여기서 는 모수에 대한 OLS 추정치. 이러한 대한 일반적인 테스트 통계는 다음과 같습니다. tψ=cjβjψ0c=(0,1)β2=0μ2μ1=0ψ^=cjβ^jβ^=(XX)1Xyψ

t=ψ^ψ0σ^c(XX)1c

σ^2=e2/(nRank(X)) 는 오차 분산에 대한 편견없는 추정값입니다. 여기서 는 잔차 제곱의 합입니다. 두 그룹의 경우 , 이므로 추정값은 및 . 이 경우 가 1 인 경우 검정 통계량은 e2Rank(X)=2(XX)1X=(.5.500.5.5.5.5)β^0=0.5y1+0.5y2=M1β^2=0.5y10.5y2+0.5y3+0.5y4=M2M1c(XX)1c

t=M2M10σ^=M2M1e2/(n2)

t 는 df (여기서 ) 와 함께 분포됩니다 . 를 제곱 하면 의 ANOVA의 통계량 두 그룹 -test ( 사이를 들어, 다음 그룹 내에 대한) - 1과 갖는 분포 df.tnRank(X)n2t(M2M1)2/1e2/(n2)=SSb/dfbSSw/dfw=FFbwFnRank(X)

그룹이 두 개 이상인 경우 분산 분석 가설 (모든 은 동시에 0, )은 둘 이상의 매개 변수를 나타내며 선형 조합 로 표현할 수 없으므로 검정은 동일하지 않습니다. .βj1jψ


3

1에서 ANOVA는 일반적으로 요인 변수와 그룹 분산 사이의 유의성 여부를 테스트합니다. 소프트웨어가 회귀 분석에서 지표 변수를 허용하는 경우 차이점을 분명히 알 수 있습니다. 각 더미에 대해이 그룹의 점수가 0과 유의하게 다른지 여부를 나타내는 p 값을 얻을 수 있으며 결과적으로 적용 가능한 참조 그룹 또는 참조 값과 크게 다릅니다 . 일반적으로 ANOVA 테스트를 수행 할 때까지 지표 자체가 어느 정도 중요한지 알 수 없습니다.

F- 검정은 제곱 t- 검정입니다. 따라서 2에서도 동일합니다.


감사! (1) 여기서 지표 변수는 무엇을 의미합니까? (2) 일반적으로 t- 검정은 그룹이 두 개인 경우에만 분산 분석에 해당합니다. 그러나 간단한 선형 회귀 분석에는 두 개 이상의 그룹이있을 수 있습니다. 여기서 그룹 수는 예측 변수가 데이터 세트에서 취하는 값의 수입니다.
Tim

(1) 지표 또는 범주 또는 요인 변수 ... 모두 동일합니다. (2) 실제로, ANOVA로부터 일련의 인형 / 범주가 얼마나 잘 점수를 받는지 알고 싶을 수도 있습니다.
Labor

감사! (2) 간단한 선형 회귀 분석에서 두 개 이상의 그룹이 있다는 점에서 t- 검정은 어떻게 ANOVA와 동등합니까? "ANOVA에서 얻은 일련의 인형 / 카테고리 점수"는 무엇을 의미하며 왜 알고 싶어합니까?
Tim

OLS 회귀 분석에서 R² (설명 분산)은 정의한 그룹 수에 관계없이 ANOVA의 eta² 또는 MSS / TSS와 같습니다. 다음으로, 일련의 인형 (예 : 지표 변수)의 기여도를 알고 세트 자체가 관련성이 있는지 여부와 어느 정도가 기준 범주와 하나의 단일 범주 간 차이의 중요성과 다른지 말할 수 있습니다. .
노동
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.