다 요인 분산 분석에 대한 매우 기본적인 질문입니다. 주요 효과 A, B 및 상호 작용 A : B를 모두 테스트하는 양방향 설계를 가정합니다. 유형 I SS가있는 A에 대한 주 효과를 테스트 할 때 효과 SS는 차이 로 계산됩니다. 여기서 은 절편 만있는 모형의 잔차 오차 제곱입니다. 및 추가 요소 A를 모델에 대한 RSS. 내 질문은 오류 용어의 선택과 관련이 있습니다.R S S ( 1 ) R S S ( )
이 테스트의 오차 항이 일반적으로 주요 효과와 상호 작용을 모두 포함하는 전체 모델 A + B + A : B의 RSS에서 계산된다는 것을 어떻게 정당화합니까?
... 실제 비교 (위의 경우 주 효과 A의 RSS)에서 제한되지 않은 모델의 오차 항을 취하는 것과 반대로
전체 모델의 오차 항이 비교에서 무제한 모델의 오차 항보다 항상 (항상 그런 것은 아님) 작기 때문에 차이가 있습니다. 오차항에 대한 선택은 다소 임의적 인 것으로 보이며, 실제로 관심이없는 요인을 추가 / 제거하여 원하는 p- 값 변화에 대한 여지를 만들지 만, 오차항을 변경하면됩니다.
다음 예에서, 효과 SS에 대한 실제 비교는 동일하게 유지 되더라도 A에 대한 F- 값은 전체 모형에 대한 선택에 따라 상당히 변경됩니다.
> DV <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+ 56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+ 43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)
> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1)) # full model = unrestricted model (just A)
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.556 0.9342 0.4009
Residuals 42 2272.80 54.114
> anova(lm(DV ~ IV1 + IV2)) # full model = A+B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.9833 0.1509
IV2 2 1253.19 626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61 25.49
> anova(lm(DV ~ IV1 + IV2 + IV1:IV2)) # full model = A+B+A:B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.8102 0.1782
IV2 2 1253.19 626.59 22.4357 4.711e-07 ***
IV1:IV2 4 14.19 3.55 0.1270 0.9717
Residuals 36 1005.42 27.93
동일한 질문이 유형 II SS, 일반적으로 일반 선형 가설, 즉 전체 모델 내에서 제한 모델과 제한되지 않은 모델 간의 모델 비교에 적용됩니다. (유형 III SS의 경우 무제한 모델은 항상 전체 모델이므로 질문이 발생하지 않습니다.)
IV1
(첫 번째 예) 만 포함 된 경우 분모에 대한 두 표현식이 동일합니다. 전체 모델이 추가 효과가 포함되어있는 경우 그러나, 테스트 분모 도 (모델 비교하더라도 변경 대 1 형 SS에 대한)하지 않습니다. 세 가지 예에서 의 평균 제곱은 변경되지 않지만 (모든 경우에 동일한 모델 비교) 평균 제곱 오차는 변경됩니다. 실제 비교가 동일하게 유지 될 때 변화하는 오류 항을 정당화하는 것에 관심이 있습니다. ~ 1
~ IV1 + 1
anova(lm(DV ~ IV1))
anova(lm(DV ~ 1))
anova(lm(DV ~ IV1))