요인 분산 분석에서 오차 항을 정당화하는 방법은 무엇입니까?


13

다 요인 분산 분석에 대한 매우 기본적인 질문입니다. 주요 효과 A, B 및 상호 작용 A : B를 모두 테스트하는 양방향 설계를 가정합니다. 유형 I SS가있는 A에 대한 주 효과를 테스트 할 때 효과 SS는 차이 로 계산됩니다. 여기서 은 절편 만있는 모형의 잔차 오차 제곱입니다. 및 추가 요소 A를 모델에 대한 RSS. 내 질문은 오류 용어의 선택과 관련이 있습니다.R S S ( 1 ) R S S ( )RSS(1)RSS(A)RSS(1)RSS(A)

이 테스트의 오차 항이 일반적으로 주요 효과와 상호 작용을 모두 포함하는 전체 모델 A + B + A : B의 ​​RSS에서 계산된다는 것을 어떻게 정당화합니까?

FA=(RSS1RSSA)/(dfRSS1dfRSSA)RSSA+B+A:B/dfRSSA+B+A:B

... 실제 비교 (위의 경우 주 효과 A의 RSS)에서 제한되지 않은 모델의 오차 항을 취하는 것과 반대로

FA=(RSS1RSSA)/(dfRSS1dfRSSA)RSSA/dfRSSA

전체 모델의 오차 항이 비교에서 무제한 모델의 오차 항보다 항상 (항상 그런 것은 아님) 작기 때문에 차이가 있습니다. 오차항에 대한 선택은 다소 임의적 인 것으로 보이며, 실제로 관심이없는 요인을 추가 / 제거하여 원하는 p- 값 변화에 대한 여지를 만들지 만, 오차항을 변경하면됩니다.

다음 예에서, 효과 SS에 대한 실제 비교는 동일하게 유지 되더라도 A에 대한 F- 값은 전체 모형에 대한 선택에 따라 상당히 변경됩니다.

> DV  <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+          56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+          43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)

> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1))                           # full model = unrestricted model (just A)
          Df  Sum Sq Mean Sq F value Pr(>F)
IV1        2  101.11  50.556  0.9342 0.4009
Residuals 42 2272.80  54.114

> anova(lm(DV ~ IV1 + IV2))                     # full model = A+B
          Df  Sum Sq Mean Sq F value   Pr(>F)    
IV1        2  101.11   50.56  1.9833   0.1509    
IV2        2 1253.19  626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61   25.49                     

> anova(lm(DV ~ IV1 + IV2 + IV1:IV2))           # full model = A+B+A:B
          Df  Sum Sq Mean Sq F value    Pr(>F)    
IV1        2  101.11   50.56  1.8102    0.1782    
IV2        2 1253.19  626.59 22.4357 4.711e-07 ***
IV1:IV2    4   14.19    3.55  0.1270    0.9717    
Residuals 36 1005.42   27.93

동일한 질문이 유형 II SS, 일반적으로 일반 선형 가설, 즉 전체 모델 내에서 제한 모델과 제한되지 않은 모델 간의 모델 비교에 적용됩니다. (유형 III SS의 경우 무제한 모델은 항상 전체 모델이므로 질문이 발생하지 않습니다.)


나는 당신의 질문에 혼란 스러울 수도 있지만 유형 1 SS 로 의 효과를 테스트하기 위해 분모 두 번째 표현에있는 것입니다. 달리기 결과의 F- 값은 두 번째 표현식을 통해 계산됩니다. 당신이 실행 한 경우 즉, 그리고 당신의 두 번째 표현식에 해당하는 값을 연결, 당신은 얻을 . 내가 당신의 걱정을 완전히 잃어 버렸다면 알려주십시오. F = 0.9342Aanova(lm(DV ~ IV1))anova(lm(DV ~ 1))anova(lm(DV ~ IV1))F=0.9342

@MikeWierzbicki 전체 모형에 IV1(첫 번째 예) 만 포함 된 경우 분모에 대한 두 표현식이 동일합니다. 전체 모델이 추가 효과가 포함되어있는 경우 그러나, 테스트 분모 도 (모델 비교하더라도 변경 대 1 형 SS에 대한)하지 않습니다. 세 가지 예에서 의 평균 제곱은 변경되지 않지만 (모든 경우에 동일한 모델 비교) 평균 제곱 오차는 변경됩니다. 실제 비교가 동일하게 유지 될 때 변화하는 오류 항을 정당화하는 것에 관심이 있습니다. A~ 1~ IV1 + 1A
caracal

안녕하세요 @ caracal, 그런 오래된 대답이 갑자기 받아 들여지는 것을 보게되어 기쁩니다! :-) 건배.
amoeba는

답변:


4

이것은 매우 오래된 질문이며 @gung의 답변이 매우 좋습니다 (+1). 그러나 @caracal이 완전히 설득력이 없었기 때문에 모든 복잡성을 완전히 따르지 않기 때문에 문제를 이해하는 방법을 보여주는 간단한 그림을 제공하고 싶습니다.


양방향 ANOVA (인자 A에는 세 가지 수준이 있고 요인 B에는 두 가지 수준이 있음)를 고려하면 두 요인이 모두 매우 중요합니다.

요인 분산 분석 제곱합

요인 A의 SS는 엄청납니다. 요인 B의 SS는 훨씬 작지만, 위 그림에서 요인 B도 매우 중요하다는 것이 분명합니다.

두 요인을 모두 포함하는 모형의 오차 SS는 6 개의 가우시안 중 하나로 표시되며, 요인 B의 SS를이 오차 SS와 비교하면 검정에서 요인 B가 유의하다고 결론을 내립니다.

그러나 요인 B 만 포함 된 모델의 오류 SS는 방대합니다! 이 대규모 오류 SS와 요인 B의 SS를 비교하면 B가 중요하지 않은 것처럼 보일 수 있습니다. 분명히 그렇지 않습니다.

따라서 전체 모델의 오류 SS를 사용하는 것이 좋습니다.


2

업데이트 : 여기에서 전달할 몇 가지 요점을 명확히하기 위해 관련 아이디어를보다 자세히 논의 할 수있는 링크를 추가했습니다.


F 검정은 우연히 예상되는 것보다 요인과 관련된 변동성 (특히 평균 제곱)이 있는지 확인합니다. 우연히 예상 할 수있는 변동량은 제곱 오차의 합, 즉 알려진 요인이 없기 때문에 발생하는 변동량으로 추정됩니다. 이것들은 당신이 알고있는 모든 것을 설명하고 남은 것들입니다. 귀하의 예에서 에는 잔차 오차 이상이 포함되어 있으며 알려진 요인으로 인한 변동성도 포함되어 있습니다. 는 우연히 어느 정도 튀어 이론화되어 있지만 , 그 양은 다른 알려진 요소 1 에 의해 구동되는 것으로 이론화되지 않았습니다 . 따라서 를 사용하는 것은 부적절합니다 S S A M S A M S A + B + A BRSSASSAMSAF 검정의 분모로 또한 사용하면 유형 II 오류의 가능성이 줄어들고 유형 I 오류 를 는 안됩니다. MSA+B+AB

귀하의 질문에 몇 가지 추가 문제가 있습니다. 당신은 언급 항상 가장 낮은 아니며, 귀하의 예제에서, . 상호 작용이 실제로 자체의 가변성과 관련이 없기 때문입니다. 그건 나타납니다 때문에 더 기회 이상의 아무것도 할 수 있습니다. 모형에서 다른 요인이 포함되거나 제외 될 경우 검정력이 어떻게 변하는 지 지정하는 정확하지만 다소 복잡한 공식이 있습니다. 손끝에 없지만, 요점은 간단합니다. 다른 요소를 포함 시키면 RSS가 줄어들고 (더 많은 힘을 주지만) M S A + B + A * B > M S A + B S S A * B = 14.19 d f RRSSfullMSA+B+AB>MSA+BSSAB=14.19dfR또한 힘이 줄어 듭니다. 이 절충점의 균형은 본질적으로 해당 요인과 관련된 SS가 실제인지 또는 우연 때문인지에 의해 결정되며, 실제로는 요인이 유의한지 여부에 의해 느슨하게 표시됩니다 2 . 그러나 올바른 오류 항을 얻기 위해 중요하지 않은 모델에서 요인을 제거하는 것은 소프트웨어가 자동으로 수행하지 않아도 자동 모델 검색 절차와 논리적으로 동일합니다. 이 작업을 수행하는 데 많은 문제가 있음을 알아야합니다. 이러한 문제와 대안 절차는 CV 3의 다른 곳에서 논의됩니다 .

마지막 주제는 다양한 유형의 SS에 관한 것입니다. 첫째, 다른 유형의 SS를 사용한다고해서 분석에 대한 논리적 정당화가 필요하지는 않습니다. 그러나 유형 I-III SS는 다른 문제와 관련이 있습니다. 귀하의 예에서, 나는 귀하의 요인이 직교하는 것을 수집합니다. 즉, 각 요인 수준 조합에 동일한 n을 할당 한 실험을 실행했습니다. 그러나 관찰 연구를 수행하거나 중퇴 문제가있는 경우 요인이 서로 관련됩니다. 그 의미는 SS를 분할하는 고유 한 방법이 없으므로 분석에서 생성 할 고유 한 대답이 없다는 것입니다. 다시 말해, 다양한 유형의 SS는 요인이 상관 될 때 F 검정에 대해 가능한 다른 분자 와 관련이 있습니다 4 .

1. 다단계 모형의 경우 모형을 지정하는 방법에 따라 다른 요인의 변동성을 포함하도록 요인을 이론화 할 수 있습니다. 나는 여기서 일반적인 ANOVA에 대해 이야기하고 있습니다.
2. 2 차 IV를 추가하면 1 차 IV를 어떻게 중요하게 할 수 있습니까?를 참조하십시오.
3. 자동 모델 선택 알고리즘을 참조하십시오 .
4. 유형 I (순차) 분산 분석 및 MANOVA 해석 방법을 참조하십시오.


1
답변 주셔서 감사합니다! 나는 100 % 확신이 없다. 당신은 "RSS (A)는 잔차 오차 이상을 포함하고 있으며, 알려진 요인으로 인한 변동성도 포함하고있다"고 말한다. 그러나 이것은 올바른 모델이 무엇인지에 달려 있습니다. 아마도 와 는 아무런 영향을 미치지 않을 것입니다. 우리는 이것을 모릅니다. 그것은 우리가 테스트하고있는 가설 일뿐입니다. 그리고 가정 된 영향 외에도 알려지지 않은 영향이있을 수 있습니다. 그렇다면 우리는 어떤 모델이 진실에 더 가까운지를 미리 정당화 할 수 있습니까? 회귀에서 상황은 동일합니다. 내가 상담 할 수있는 문해력이 있습니까? A : BBA:B
caracal

1
+1 그리고 방금 첫 번째 큰 단락에 삽화를 제공하려는 답변을 게시했습니다.
amoeba는

0

요인 B가 중요한 부분을 설명하므로 분석에서 A를 제거하기 때문에 요인 A가 A 모델과 비교하여 A + B 모델에서 설명 할 수없는 변동의 더 큰 비율을 설명하고 있다는 것이 정당화입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.