ANOVA가 선형 회귀 분석과 비교하여 다른 연구 방법 인 것처럼 가르치고 사용되는 이유는 무엇입니까?


91

분산 분석은 적합한 더미 변수를 사용하는 선형 회귀와 같습니다. 분산 분석을 사용하는지 선형 회귀 분석을 사용하는지에 관계없이 결론은 동일하게 유지됩니다.

동등성에 비추어 선형 회귀 대신 ANOVA를 사용하는 이유가 있습니까?

참고 : 선형 회귀 대신 분산 분석을 사용해야하는 기술적 이유에 대해 특히 관심 이 있습니다.

편집하다

다음은 일원 분산 분석을 사용하는 예입니다. 남성과 여성의 평균 키가 동일한 지 알고 싶다고 가정하십시오. 가설을 검정하기 위해 무작위로 남녀 표본 (각 30 개)에서 데이터를 수집하고 분산 분석 (예 : 성별 및 오류의 제곱합)을 수행하여 효과가 있는지 여부를 결정합니다.

선형 회귀를 사용하여 다음과 같이이를 테스트 할 수도 있습니다.

정의 : 의 경우 응답자가 남성이고 0 이 없습니다. 높이 = 절편 + β 성별 + 오류 여기서 error N ( 0 , σ 2 )Gender=10

Height=Intercept+βGender+error
errorN(0,σ2)

β=0


2
내가 실수하지 않으면, 선형 회귀는 X에서 Y 로의 좋은 선형 맵을 정의하는 계수의 추정입니다. ANOVA는 Y가 두 개의 다른 값을 취할 때 X에 유의 한 차이가 있는지 확인하는 테스트입니다. 왜 같은 생각을하십니까?
로빈 지라드

28
분산 분석은 선형 회귀 모델의 특수 하위 그룹에 대해 "구문 설탕"으로 볼 수 있습니다. 분산 분석은 통계 전문가가 아닌 연구자가 훈련을 통해 정기적으로 사용합니다. 그들은 이제 "제도화되어"있으며 더 일반적인 표현을 사용하여 다시 변환하기 어렵다 ;-)
suncoolsu

3
βββ

답변:


55

이코노미스트로서 분산 분석 (ANOVA)은 선형 회귀와 관련하여 가르치고 일반적으로 이해됩니다 (예 : Arthur Goldberger의 EconometricsA 과정 ). 경제학자 / 경제학자들은 일반적으로 분산 분석을 무관심한 것으로보고 회귀 모델로 직진하는 것을 선호합니다. 선형 (또는 일반화 된 선형) 모델의 관점에서, ANOVA는 계수를 배치로 할당하며, 각 배치는 ANOVA 용어의 "변이 소스"에 해당합니다.

일반적으로 회귀를 사용하여 분산 분석에서 얻은 추론을 복제 할 수 있지만 항상 OLS 회귀는 아닙니다. 그룹 간 효과를 그룹 수준 오류와 비교하고 그룹 내 효과를 데이터 수준 오류와 비교하는 "분할 플롯 디자인"과 같은 계층 적 데이터 구조를 분석하려면 다단계 모델이 필요합니다. Gelman의 논문 [1]은이 문제에 대해 자세하게 설명하고 ANOVA는 여전히 자체적으로 가르쳐야 할 중요한 통계 도구라고 주장합니다.

특히 Gelman은 ANOVA가 다단계 모델을 이해하고 구조화하는 방법이라고 주장합니다. 따라서 ANOVA는 회귀의 대안이 아니라 복잡한 고차원 추론을 요약하고 탐색 적 데이터 분석을위한 도구로 사용됩니다.

Gelman은 존경받는 통계 학자이며 그의 견해에 어느 정도의 신뢰를 부여해야합니다. 그러나 내가하는 거의 모든 경험적 작업은 선형 회귀에 의해 동등하게 잘 제공되므로 조금 무의미한 것으로 보는 진영에 빠지게됩니다. 복잡한 연구 설계 (예 : 심리학)가있는 일부 분야에서는 ANOVA가 유용 할 수 있습니다.

Gelman, A. (2005). 분산 분석 : 왜 논의보다 더 중요한가. 통계 연대기 33, 1-53. doi : 10.1214 / 009053604000001048


1
Gelman 참조 주셔서 감사합니다. 나는 그의 논문을 읽을 것이다. 그러나 고전적인 최대 가능성을 사용하여 다단계 모델을 분석 할 수 없습니까? OLS가 다단계 모델에 비효율적이거나 부적절하다는 데 동의합니다.

3
@Srikant-다단계 데이터를 처리하는 많은 방법이 있으며 Gelman은이 분야의 "왕"입니다. 그의 관점은 ANOVA는 복잡하고 계층적인 데이터 구조 또는 연구 설계의 주요 특징을 포착하는 간단하고 명확한 방법이며, ANOVA는 주요 결과를 제시하는 간단하고 명확한 방법이라는 것입니다. 이런 의미에서 역할은 보완 적이거나 탐색 적입니다.
Graham Cookson

1
좋은 답변을 얻으려면 +1하십시오. 3 항은 본질적으로 생물학 학부생으로서 배운 내용으로, ANOVA 프레임 워크에서 연속 형 및 범주 형 독립 변수를 쉽게 결합 할 수 있다는 점을 강조했습니다.
프레야 해리슨

23

Graham의 두 번째 단락은이 문제의 핵심이라고 생각합니다. 아마도 " 연구원을위한 통계적 방법 "의 영향 과 모델 구축을 탐구하기보다는 불 연속적 요인을 포함하는 실험적 분석에서 비 통계학자를위한 도구를 쉽게 가르치거나 적용 할 수 있기 때문일 것 입니다. 및 관련 도구. 통계에서, 분산 분석은 일반적으로 특별한 회귀 사례로 진행됩니다. (이것이 생물 통계학이 모델 구축을 강조하는 것이 아니라 무수히 많은 시조로 가득 찬 이유와 비슷하다고 생각합니다.)


14

일반 선형 모델을 사용해야 할 때 일부는 회귀라는 용어를 사용한다고 말합니다. 회귀는 연속 공변량을 포함하는 glm으로 생각합니다. 연속 공변량을 더미 변수와 결합하여 공분산 분석이라고합니다. 더미 변수 만 사용하는 경우 분산 분석으로 특수한 형태의 glm을 참조합니다. 분산 분석은 모델 항 성분과 오차 항 성분으로의 분산을 사용하여 glm에서 유의 한 계수를 테스트하는 절차로서 뚜렷한 두 번째 의미를 가지고 있다고 생각합니다.


2
(+1) 나는 또한 토론 전반에 걸쳐 모호한 용어 "회귀"를 즉시 언급했다.
Stéphane Laurent

1
(+1) GLM이 다른 의미를 풀기위한 가장 좋은 방법 일 수 있습니다. ANOVA의 역사에서 OLS와 ANOVA 사이의 관계를 모호하게하는 계산 절차가 사용되었다는 점도 주목해야한다. 따라서 명명법은 역사적 이유로 정당화 될 수 있습니다.
jank

10

ANOVA는 2 개 이상의 값 (레벨)을 취하는 범주 설명 변수 (인자)와 함께 사용할 수 있으며 모든 값에 대해 평균 반응이 동일한 기본 테스트를 제공합니다. 이렇게하면 해당 레벨간에 여러 쌍별 t- 검정을 수행 할 때 발생하는 회귀 문제를 피할 수 있습니다.

  • 고정 5 % 유의 수준에서 여러 번의 t- 검정을 수행하면 약 5 %에서 잘못된 결과를 얻을 수 있습니다.
  • 이 테스트들은 서로 독립적이지 않습니다. A의 데이터가 두 테스트에 모두 사용되므로 A의 레벨을 B와 비교하는 것은 A를 C와 비교하는 것과 관련이 있습니다.

테스트하려는 요인 수준에서 다른 조합에 대비 를 사용하는 것이 좋습니다 .


1
α=.05

7
(3) 당신의 대답은 다중 비교 문제가 OLS 회귀에 적용된다는 것을 암시합니다. 회귀 컨텍스트에서 요인을 테스트하는 올바른 방법은 모든 요인 모형이 포함 된 전체 모형에 대해 모든 요인 모형이 삭제 된 중첩 모형을 검정하는 것입니다. 이 테스트는 분산 분석이 수행하는 테스트와 동일합니다. 개별 더미 변수의 테스트를 사용해서는 안됩니다 (여기서 설명하려고하는 것입니다).
gung

3

분산 분석은 두 개 이상의 모집단 평균을 비교한다고 가정 할 때 모집단 평균간에 유의 한 차이가 있는지 여부를 검정하고 있으며 F 검정을 사용하려고합니다.

회귀 분석에서는 독립 변수와 종속 변수 사이에 모형을 작성합니다. 4 개의 수준을 가진 하나의 독립 변수가있는 경우 3 개의 더미 변수를 사용하고 회귀 모델을 실행할 수 있습니다. 회귀 모형의 유의성을 검정하는 데 사용되는 회귀 모형의 F- 검정은 모집단 평균의 차이를 검정 할 때 얻는 F와 같습니다. 단계적 회귀 분석을 실행하면 일부 더미 변수가 모형에서 제거 될 수 있으며 F- 값은 분산 분석 테스트를 수행 할 때의 값과 다릅니다.


5
이것은 ANOVA를 테스트 절차로 만들고 회귀는 테스트를 수행 할 수있는 모델링 절차로 만듭니다. 그러나 ANOVA는 이것이 모든 입문 치료에서 강조되는지 여부에 관계없이 기본 모델을 가지고 있습니다. 따라서이 답변은 그들 사이의 차이점을 포착하지 못합니다. 또한 그 질문에 대해서도 언급되어 있지 않기 때문에 강한 유사성에 관계없이 다르게 가르치는 이유입니다.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.