회귀 분석 vs. 분산 분석 불일치 (R에서 aov vs lm)


21

나는 회귀가 더 일반적인 형태의 분산 분석이고 결과가 동일하다는 인상을 항상 받았다. 그러나 최근에 동일한 데이터에 대해 회귀 분석과 분산 분석을 모두 실행했으며 결과가 크게 다릅니다. 즉, 회귀 모형에서는 주 효과와 교호 작용이 모두 중요하지만 분산 분석에서는 주 효과가 중요하지 않습니다. 나는 이것이 상호 작용과 관련이 있다고 생각하지만 동일한 질문을 모델링하는이 두 가지 방법에 대해 다른 점이 분명하지 않습니다. 중요한 경우 아래의 시뮬레이션에 표시된대로 한 예측 변수는 범주 형이고 다른 예측 변수는 연속적입니다.

다음은 내 데이터의 모양과 실행중인 분석의 예이지만 결과에서 동일한 p- 값 또는 효과가 중요하지 않습니다 (실제 결과는 위에 요약되어 있음).

group<-c(1,1,1,0,0,0)
moderator<-c(1,2,3,4,5,6)
score<-c(6,3,8,5,7,4)

summary(lm(score~group*moderator))
summary(aov(score~group*moderator))

summary (lm ())은 지정한 명암에 대한 계수를 제공합니다. 여기에는 사양이없는 처리 명암이 있습니다. summary (aov ())는 anova 테이블을 제공합니다. 당신은 LM 모형에 대한 분산 분석을 원하는 경우에 당신은 분산 분석 (LM을 ())가 필요합니다
매트 브레

group숫자 형 벡터입니까, 이것은 의도적 인 것입니까? 일반적으로 그룹화 요소에는 클래스가 있어야 factor하므로 대비로의 변환은와 같은 함수에 의해 자동으로 처리 될 수 있습니다 lm(). 그룹이 두 개 이상이면 group변수 가 명확하지 않게되거나 0/1 이외의 코딩을 사용 합니다.
caracal

답변:


17

summary함수는 객체의 클래스에 따라 다른 메소드를 호출합니다. 차이점은 aovvs lm가 아니라 모델에 대한 정보에 있습니다. 당신이 사용하는 경우 예를 들어, anova(mod1)그리고 anova(mod2)대신, 동일한 결과를 얻을 수 있습니다.

@Glen이 말했듯이, 핵심은보고 된 테스트가 유형 1 또는 유형 3 제곱합을 기준으로하는지 여부입니다. 설명 변수 간의 상관 관계가 정확히 0이 아닌 경우에는 차이가 있습니다. 상관 관계가있는 경우 일부 SS는 한 예측 변수에 고유하고 일부는 다른 예측 변수에 고유하지만 일부 SS는 둘 중 하나 또는 둘 다에 기인 할 수 있습니다. ( MasterCard 심볼을 상상하여이를 시각화 할 수 있습니다.-중앙에는 겹치는 부분이 적습니다.)이 상황에는 고유 한 답이 없으며 불행히도 이것은 실험적이지 않은 데이터의 표준입니다. 한 가지 접근 방식은 분석가가 판단을 사용하고 겹치는 SS를 변수 중 하나에 할당하는 것입니다. 그 변수는 먼저 모델에 들어갑니다. 다른 변수는 두 번째 모델로 들어가서 물린 쿠키와 같은 SS를 얻습니다. 라고 불리는 것으로 테스트 할 수 있습니다.아르 자형2변경 또는 F 변경. 이 방법은 유형 1 SS를 사용합니다. 또는 먼저 두 번 수행 한 후 두 예측 변수에 대한 F 변화 검정을보고 할 수 있습니다. 이런 식으로, 어떤 변수도 중첩으로 인해 SS를 얻지 못합니다. 이 방법은 유형 3 SS를 사용합니다. (또한 후자의 접근 방식이 낮은 수준으로 유지된다고 말해야합니다.)

아래 주석에서 @BrettMagill의 제안에 따라, 나는 이것을 좀 더 명확하게 만들려고 노력할 수 있습니다. (예제에서는 예측 변수 2 개만 사용하고 상호 작용은 없지만이 아이디어는 원하는 것을 포함하도록 확장 할 수 있습니다.)

유형 1 : SS (A) 및 SS (B | A)

유형 3 : SS (A | B) 및 SS (B | A)


1
이것은 문제에 대한 좋은 설명입니다. 다음을 사용하여 텍스트를 명확하게 설명 할 수 있습니다. 유형 I : SS_A = SS (A) SS_B = SS (B | A) 및 SS_AB = SS (AB | B, A) 유형 III : SS_A = SS (A | B, AB ) 및 SS_B = SS (B | A, AB) 및 SS_AB = SS (AB | A, B)
Brett

1
도와 주셔서 정말 감사합니다. 이러한 모델이 어떻게 다른지에 대해서는 지금 무슨 일이 일어나고 있는지 이해하지만, anova 또는 회귀 모델을 사용하는 것이 적절한 지에 대해서는 아직 확실하지 않습니다. 내 고문은 anova를 조언하고 있지만 항상 회귀를 사용하도록 지시 받았으며 결과가 다양 할 때 어느 것이 더 적합한 지 잘 모르겠습니다. 적절한시기에 조언 할만한 예나 자료가 있습니까? 도와 주셔서 감사합니다.
Rebecca

1
미안하지만 잘 따르지 않습니다. 내 요점은 모델 실제로 다르지 않다는 것입니다. 분산 분석은 모든 정성 예측 변수를 사용한 회귀 분석입니다. 연속 및 정성 예측 변수가있는 회귀 모형이 있고 연속 예측 변수를 먼저 입력하면 정성 예측 변수 (상호 작용 항은 제외)가 ANCOVA입니다. '장면 뒤'는 동일하기 때문에 어떤 접근 방식이든 상관 없습니다. 나는 보통 이것을 회귀로 코딩하지만 그것은 스타일의 문제입니다. OTOH는 조언자가 ANOVA 스타일을 실행하기를 원한다면 차이가 없으므로 해당 경로로 이동하십시오.
gung-복직 모니카

2
몇 가지 사항 : (3 위로) 상호 작용이 독립 변수가 상관되어 있다는 것을 의미하지는 않습니다. 이들은 서로 다른 것입니다. (2 up) 만약 모델 3이 모델 2보다 현저히 낫다면, 이것은 상호 작용이 중요하다는 것을 암시합니다 (상호 작용이 그들 사이에 다른 유일한 것이기 때문에); (1 위로) 당신은 당신의 연구를 당신이 후속 확인 연구를 계획하는 데 사용할 조종사로 생각하지 않는 한 중요한 효과를 위해 낚시를 피하고 싶습니다 (이 경우 나는 당신이 괜찮다고 생각합니다). 이 세 가지를 모두 살펴보기 위해이 연구를 진행 했으므로 모델 3을 살펴보십시오.
gung-Reinstate Monica

2
또한 교호 작용은 주요 효과를 해석해서는 안되므로 모델 1 만 제시하면 위험을 초래할 수 있습니다. : 당신이 SS의 유형에 대한 자세한 정보를 원하는 경우, 여기 상당히 포괄적 인 답변을 썼다 stats.stackexchange.com/questions/20452/... 어떤 시점에서, 옆에있는 체크 표시를 클릭하여, 당신이 답변을 받아 들여야한다, 또한이 그들 중 하나.
gung-모니 티 복원

10

aov 출력의 결과는 유형 1 제곱합을 기반으로 확률을 제공합니다. 이것이 상호 작용 결과가 같고 주 효과가 다른 이유입니다.

유형 3 제곱합을 기반으로 확률을 사용하면 선형 회귀 결과와 일치합니다.

library(car)
Anova(aov(score~group*moderator),type=3)

5
모형이 동일한 가설을 검정하고 요인의 모수화가 동일한 경우 선형 모형과 분산 분석은 동일합니다. 소위 "Type I"과 "Type III"합계는 단순히 다른 기본 가설 (순차 제곱합과 한계 제곱합의 효과)을 검정하는 것입니다. 분산 분석은 여러 패키지로 구현 된 이러한 결정 중 일부를 숨기는 경향이 있습니다. 사실 GLM의 요인 매개 변수화 및 모델 비교를 통해 관심 가설을 실제로 설정하고 테스트하는 것이 탁월한 접근 방식이라고 생각합니다.
Brett

+1, 오타가 있다고 생각합니다. lm은 유형 1 SS를 사용하고 aov는 유형 3 SS를 사용합니다.
gung-Monica Monica 복원

2
lm에서는 Type III (Marginal) 제곱합이 기본적으로 사용됩니다. AOV는 기본적으로 유형 I (순차)을 사용합니다. LM 결과는 순서가 변하지 않지만, aov 결과는 요인의 순서에 따라 다릅니다.
Brett

나는 lm과 aov가 기본적으로 유형 I을 사용한다고 생각했기 때문에 유형 II와 III에 대문자 A Anova ()를 사용한다고 생각했습니다.
매트 알브레히트

6
일반적으로, Anova(..., type=3)없는 당신은 또한 정렬되지 않은 요소에 대한 코딩 효과 (로 치료 대조에서 (R의 기본값)으로 전환하지 않는 한, 당신에게 올바른 유형 III SS 제공 options(contrasts=c("contr.sum", "contr.poly"))) 또는 다른 합계 0으로 대조 코드 (예를 들어, 헬머). 불균형 셀 크기와 두 개 이상의 그룹이 있으면이 도움말이 표시되며 도움말 페이지에도 언급되어 Anova()있습니다.
caracal

-2

선형 회귀 분석과 분산 분석의 주요 차이점은 분산 분석에서 예측 변수가 이산 적입니다 (즉, 서로 다른 수준을 가짐). 선형 회귀 분석에서 예측 변수는 연속적입니다.


3
이것은 일반적으로 사실이 아닙니다.
Michael R. Chernick

인터넷 어딘가에서 읽었습니다. 주요 차이점을 설명해 주시겠습니까? 나는 초보자입니다.
vivek
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.