분산 분석 대 다중 선형 회귀 분석? ANOVA가 실험 연구에서 왜 그렇게 일반적으로 사용됩니까?


24

분산 분석 대 다중 선형 회귀 분석?

이 두 가지 방법 모두 동일한 통계 모델을 사용하는 것 같습니다. 그러나 어떤 상황에서 어떤 방법을 사용해야합니까?

비교할 때 이러한 방법의 장단점은 무엇입니까?

왜 ANOVA가 실험 연구에서 일반적으로 사용되며 회귀 연구를 거의 찾지 못하는가?


5
둘 다 동일한 모델을 사용하므로 어느 것을 사용하든 상관 없습니다.
Peter Flom-Monica Monica 복원

3
기울기 (예 : 연속 예측 변수)를 비교할 때는 회귀라고하고, 평균 예측 변수 (예 : 범주 예측 변수)를 비교할 때는 분산 분석이라고합니다. 실험 연구에서 ANOVA를 더 많이 찾는 이유는 식물 성장에 대한 다양한 비료를 비교하는 것과 같이 대부분 평균 또는 처리 수준을 비교하기 때문입니다. 그러나 @PeterFlom은 이미 동일한 모델을 사용한다고 말했지만 사용하는 모델이 중요하지 않습니다. 다르게 보이는 것은 출력 결과입니다. 질문에 따라 "회귀"출력 또는 "ANOVA"출력.
Stefan

2
흠하지만 더미 코딩을 통해 회귀에 범주 형 예측 변수를 포함시킬 수도 있습니까?
florian

예, 물론입니다!
Stefan

4
귀하의 질문은 매우 유효하며 이력서에 대한 다른 관점에서 여러 번 해결되었습니다. 이러한 테스트의 중복 특성은 수수께끼입니다. ANOVA = linear regression이라고 말하기는 쉽지만, 지금까지 언급 한 모든 의견이 도움이되고 적절하다고 생각합니다. 그러나 특히 분석의 우산 아래에 ANCOVA를 포함하는 경우 현실은 약간 미묘하고 이해하기 어렵습니다. 변화. 항목과 같은 다른 항목을 확인하십시오 . 엄밀히 말하면, 나는 당신의 질문을 +1하고 있습니다. 전을 줄 수 있습니까?
Antoni Parellada 2016 년

답변:


22

분기가 변수 유형 , 특히 설명 변수 유형에 있음을 이해하는 것이 흥미로울 것 입니다. 일반적인 분산 분석에는 그룹이 다른 범주 형 변수가 있으며 연속 변수의 측정 값이 그룹간에 다른지 여부를 확인하려고합니다. 반면에 OLS는 주로 연속 회귀 및 반응 변수와 하나 또는 여러 회귀 변수 또는 설명 변수 간의 관계를 평가하려는 시도로 인식되는 경향이 있습니다 . 이러한 의미에서 회귀는 다른 기술로 볼 수 있으며 회귀선을 기반으로 값을 예측하는 데 사용됩니다.

그러나이 차이는 분산 알파벳 수프 (ANCOVA, MANOVA, MANCOVA)의 나머지 분석으로 ANOVA의 확장을 나타내지 않습니다. 또는 OLS 회귀에 더미 코딩 된 변수 포함. 구체적인 역사적 랜드 마크는 확실하지 않지만, 두 기술이 점점 더 복잡한 모델을 다루기 위해 병렬 적응 방식으로 성장한 것처럼 보입니다.

예를 들어 더미 (또는 범주 형) 변수 가있는 ANCOVAOLS 의 차이 (상호 작용이있는 두 경우 모두) 가 최대의 것임을 알 수 있습니다 . 다중 선형 회귀와 관련하여 질문 제목의 제한에서 벗어난 것을 실례합니다.

두 경우 모두, 모델은 R 에서 lm함수가 ANCOVA를 수행하는 데 사용 된다는 점과 본질적으로 동일합니다 . 그러나 회귀 모형에서 요인 (또는 범주 형) 변수의 첫 번째 수준 (또는 그룹)에 해당하는 절편을 포함하는 것과 관련하여 다르게 표시 될 수 있습니다.

균형 잡힌 모델 (동일한 크기의 그룹, )과 공변량 하나만 (매트릭스 표현을 단순화하기 위해) ANCOVA의 모델 매트릭스는 다음과 같이 변형 될 수 있습니다.n 1 , 2 , 나는n1,2,i

X=[1n100엑스n10001200엑스2000100엑스]

위한 요인 변수 기, 블록 행렬로 표현.

이것은 선형 모델에 해당합니다.

α i β

와이=α나는+β1엑스1+β2엑스2+β엑스+ϵ나는
와 분산 분석의 다른 그룹 수단에 상당 다른 는 각 그룹에 대한 공변량의 기울기입니다.α나는β

회귀 필드에서, 특히 R에서 동일한 모델의 표현은 그룹 중 하나에 해당하는 전체 절편을 고려하며 모델 매트릭스는 다음과 같이 표시 될 수 있습니다.

엑스=[00000J,1120엑스0엑스200100엑스]

OLS 방정식의

와이=β0+μ나는+β1엑스1+β2엑스2+β엑스+ϵ나는
.

이 모델에서 전체 절편 은 각 그룹 수준에서 의해 수정되며 그룹의 경사도도 다릅니다.β0μ나는

모형 행렬에서 알 수 있듯이 프레젠테이션은 회귀 분석과 분산 분석 간의 실제 동일성을 기반으로합니다.

나는 코드의 일부 라인과 R에서 내가 좋아하는 데이터 세트 mtcars 이것을 확인하고 싶다 . 내가 사용하고 lm가능한 벤 Bolker의 논문에 따르면 ANCOVA를 위해 여기 .

mtcars$cyl <- as.factor(mtcars$cyl)         # Cylinders variable into factor w 3 levels
D <- mtcars  # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),]   # Ordering obs. for block matrices.

model.matrix(lm(mpg ~ wt * cyl, D))         # This is the model matrix for ANCOVA

어떤 방법을 사용해야하는지에 대한 질문의 일부 (R과의 회귀) 에 대해서는 이 글을 쓰면서 접한이 온라인 해설이 재미있을 것 입니다.


1
이 매우 유용한 의견에 감사드립니다 ... 연결 한 주석에서 인용 : "독립 범주 형 변수가 전혀 영향을 미치는지 확실하지 않은 경우 회귀를 사용하십시오. 특정 범주가 다른 영향을 미치는지 보려면 분산 분석을 사용하십시오 " 그렇다면 ANOVA를 사용하는 많은 실험 연구는 어떻게됩니까? 내 이해에서 회귀가 올바른 선택이 될 것입니다. 연구원들도 그 효과가 존재하며 통계적으로 "증명"할 수있는 방법을 찾기 만한다고 확신 하는가?
florian

회귀에 대해 Aov를 사용해야하는 이유를 설명하고 그 이유를 설명해 주시겠습니까? 시간을 내 주셔서 감사합니다. 나는 또한 훈련을 통해 심리학자이며 아마도 출판이 쉬운 것을 제외하고는 Anova의 장점을 보지 못합니다.
florian

운? 두 가지 유형의 절차를 선호하는 더 구체적인 휴리스틱에 매우 관심이 있으므로 답변을 찾으면 공유하십시오.
Antoni Parellada 2016 년

불행히도 지금까지 통계에 대한 나의 여정에 대한 새로운 발견은 없습니다 ... 당신을 계속 게시 할 것이고, 더 많은 의견을 부탁드립니다.
florian

OLS 모델 매트릭스와 해당 방정식을 이해하는 데 어려움이 있습니다. 0 열이 어디에서 오는지 이해하지 못합니다 (행렬의 5 번째 열). 또한 방정식이 열과 일치해야한다고 생각합니다 (즉, mu_i는 두 그룹에만 있어야하며 x 변수는 그룹 더미와 상호 작용하지 않고 포함되어야 함). 추가 설명이 대단히 감사합니다!

4

예측 변수가 범주 형인 경우 (통계량에서 도출 한 추론 측면에서) 분산 분석 및 OLS 회귀 분석은 수학적으로 동일합니다. 다시 말하면, 분산 분석은 특별한 회귀 분석의 경우입니다. 회귀 분석이 자체적으로 도출 될 수 없음을 분산 분석에서 알 수있는 것은 없습니다. 그러나 그 반대는 사실이 아닙니다. 연속 변수 분석에는 ANOVA를 사용할 수 없습니다. 따라서 ANOVA는보다 제한된 기술로 분류 될 수 있습니다. 그러나 회귀가 덜 복잡한 분석가에게 항상 유용한 것은 아닙니다. 예를 들어, 대부분의 ANOVA 스크립트는 상호 작용 항을 자동으로 생성하며, 회귀 분석과 마찬가지로 소프트웨어를 사용하여 직접 해당 항을 수동으로 계산해야합니다. ANOVA의 광범위한 사용은보다 강력한 통계 소프트웨어를 사용하기 전에 부분적으로 통계 분석의 유물입니다. 내 의견으로는, 기본 통계 패키지로 데이터를 분석 할 수있는 상대적으로 표면 수준의 이해를 목표로하는 경험이없는 학생들에게 가르치기 쉬운 기술. 언젠가 시도해보십시오 ... 기본 회귀가 뱉어 낸 통계를 검토하고 제곱 한 다음 동일한 데이터에 대한 분산 분석의 F 비율과 비교하십시오. 같은!


사실이 아닙니다.
Michael R. Chernick

4
@MichaelChernick이 답변에서 작성된 많은 주장 중 어느 것이 틀렸다고 생각할 수 있습니까? 극단적 인 위치가 필요하지만 잘못된 것을 찾기는 어렵습니다.
whuber

나는 분산 분석과 OLS 회귀가 수학적으로 동일하다는 진술에 반대했습니다. 분산 분석은 회귀처럼 공식화 할 수있는 일반적인 선형 모형의 형태에서 회귀로 볼 수 있음을 알고 있습니다.
Michael R. Chernick

OLS의 경우 출력 이외의 다른 방식은 무엇입니까? 기본 모델은 동일하고 잔차는 동일하며, 생성되는 p- 값은 동일합니다. 다른 출력입니다.
dbwilson

2

필자의 의견으로는 회귀 분석을 피하는 ANOVA의 주요 이점은 결과에있다. 범주 형 변수 (인수)의 블록으로 통계적 유의성에 관심이있는 경우 ANOVA는이 테스트를 제공합니다. 회귀 분석을 사용하면 범주 형 변수는 범주 수에 따라 2 개 이상의 더미 변수로 표시되므로 두 개 이상의 통계 테스트를 통해 각각 특정 범주의 평균을 null 범주의 평균 (또는 더미 코딩 방법에 따라 전체 평균). 이것들 중 어느 것도 흥미로울 수 없습니다. 따라서 관심있는 요인에 대한 전체 검정을 얻으려면 추정 후 분석 (본질적으로 ANOVA)을 수행해야합니다.


실제로 이것은 사실이 아닙니다. 우도 비율 검정을 수행하면 회귀 모형에서 전체 범주 형 요인을 블록으로 검정합니다.
Dan Chaltiel

귀하의 의견은 내가 한 말과 모순되지 않습니다. 언급 한 우도 비 검정은 모형을 요인과 모형이없는 모형과 비교하여 요인에 대한 사후 추정 분석입니다.
dbwilson

분산 분석을 수행하면 "범주 형 변수 (인자)를 블록으로"에 대한 pvalue를 얻을 수 있으므로 LRT를 사용한 회귀도 마찬가지입니다. 회귀 분석은 여러 베타 버전을 제공 할 수 있지만 분산 분석보다 더 많은 테스트를 수행하지 않을 것이므로 "따라서 2 개 이상의 통계 테스트가 있습니다"라는 말이 잘못되었습니다. LRT가 ANOVA보다 더 "사후 추정"인 이유는 무엇입니까?
Dan Chaltiel

1

선형 회귀 분석의 주요 장점은 그룹 전체의 표본 크기가 다른 경우 분산의 동질성 위반에 강하다는 것입니다. 다른 하나는 여러 공변량의 포함을 촉진한다는 것입니다 (단 하나의 공변량을 포함하려는 경우 ANCOVA를 통해 쉽게 수행 할 수도 있음). 70 년대에는 컴퓨팅 능력의 발전으로 회귀가 널리 퍼졌습니다. 두 수준 이상이 존재할 때 범주 형 변수의 특정 수준 사이의 차이를 검사하는 데 특히 관심이있는 경우 회귀 분석이 더 편리 할 수 ​​있습니다 (회귀 분석에서 더미 변수를 설정하여이 두 수준 중 하나를 설정하는 한) 참조 그룹을 나타냅니다).


1
다른 답변에서 지적했듯이 분산 분석 다중 회귀입니다.
gung-Monica Monica 복원

감사합니다. Anova의 장점은 무엇입니까? 회귀 모델에 Anova / Ancova를 사용하는 이유는 무엇입니까?
florian

질문이 있습니다. ANCOVA의 유용성을 설명 할 때 왜 '단일 공변량'이라고 표시 했습니까? ANCOVA에 공변량을 하나만 포함 할 수 있기 때문입니까?
Kevin Kang
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.