유형 I, 유형 II 및 유형 III ANOVA 및 MANOVA를 해석하는 방법은 무엇입니까?


45

나의 주요 질문은 유형 I (순차) 분산 분석을 수행 할 때 출력 (계수, F, P)을 해석하는 방법입니다.

내 특정 연구 문제는 조금 더 복잡하므로 예제를 여러 부분으로 나눌 것입니다. 첫째, 식물 성장 (Y1)에 대한 거미 밀도 (X1)의 효과에 관심이 있고 인클로저에 묘목을 심고 거미 밀도를 조작하면 간단한 분산 분석 또는 선형 회귀로 데이터를 분석 할 수 있습니다. 그런 다음 분산 분석에 Type I, II 또는 III Sum of Squares (SS)를 사용하더라도 문제가되지 않습니다. 필자의 경우 밀도가 4 개인 반복 실험이 있으므로 밀도를 요인 또는 연속 변수로 사용할 수 있습니다. 이 경우 연속 독립 변수 (예측 변수)로 해석하는 것을 선호합니다. RI에서 다음을 실행할 수 있습니다.

lm1 <- lm(y1 ~ density, data = Ena)
summary(lm1)
anova(lm1)

anova 함수를 실행하면 나중에 비교하는 것이 합리적이므로 여기에서 그 이상을 무시하십시오. 출력은 다음과 같습니다.

Response: y1
          Df  Sum Sq Mean Sq F value  Pr(>F)  
density    1 0.48357 0.48357  3.4279 0.08058 .
Residuals 18 2.53920 0.14107 

이제 제가 통제 할 수 없었던 토양의 무기 질소의 시작 수준이 식물의 생장에도 크게 영향을 미쳤다고 생각합니다. 이 효과에 특별히 관심이 없지만 그로 인한 변화를 잠재적으로 설명하고 싶습니다. 실제로, 나의 주요 관심사는 거미 밀도의 영향에 관한 것입니다 (가설 ​​: 거미 밀도가 증가하면 초식성 곤충의 감소를 통해 아마도 식물의 성장이 증가하지만 메커니즘이 아닌 그 효과 만 테스트하고 있습니다). 무기 N의 영향을 분석에 추가 할 수 있습니다.

내 질문을 위해 상호 작용 밀도 * 무기 N을 테스트하고 중요하지 않은 것으로 가정하여 분석에서 제거하고 다음과 같은 주요 효과를 실행하십시오.

> lm2 <- lm(y1 ~ density + inorganicN, data = Ena)
> anova(lm2)
Analysis of Variance Table

Response: y1
           Df  Sum Sq Mean Sq F value  Pr(>F)  
density     1 0.48357 0.48357  3.4113 0.08223 .
inorganicN  1 0.12936 0.12936  0.9126 0.35282  
Residuals  17 2.40983 0.14175 

이제는 Type I 또는 Type II SS를 사용하는지 여부에 차이가 있습니다 (일부 사람들은 Type I & II 등의 용어에 반대하지만 SAS의 인기를 감안할 때 간단합니다). R anova {stats}는 기본적으로 유형 I을 사용합니다. 주요 효과의 순서를 반대로하여 밀도에 대한 유형 II SS, F 및 P를 계산하거나 John Fox 박사의 "car"패키지 (적용된 회귀에 대한 컴패니언)를 사용할 수 있습니다. 더 복잡한 문제가 더 쉽기 때문에 후자의 방법을 선호합니다.

library(car)
Anova(lm2)
            Sum Sq Df F value  Pr(>F)  
density    0.58425  1  4.1216 0.05829 .
inorganicN 0.12936  1  0.9126 0.35282  
Residuals  2.40983 17  

제 II 형 가설은 "(상수를 유지 하는가?) x2의 효과가 주어지면 y1에 x1의 선형 효과가 없으며 x1이 주어진 x2에 대해서도 동일하다는 것입니다. 나는 이것이 내가 혼란스러워하는 곳이라고 생각한다. 유형 II 방법을 사용하는 가설과 비교하여 위의 유형 I (순차) 방법을 사용하여 ANOVA에 의해 테스트되는 가설은 무엇입니까?

실제로, 식물 역학 및 영양소 역학 및 쓰레기 분해의 수많은 메트릭스를 측정했기 때문에 데이터가 좀 더 복잡합니다. 내 실제 분석은 다음과 같습니다.

Y <- cbind(y1 + y2 + y3 + y4 + y5)
# Type II
mlm1 <- lm(Y ~ density + nitrate + Npred, data = Ena)
Manova(mlm1)

Type II MANOVA Tests: Pillai test statistic
        Df test stat approx F num Df den Df  Pr(>F)    
density  1   0.34397        1      5     12 0.34269    
nitrate  1   0.99994    40337      5     12 < 2e-16 ***
Npred    1   0.65582        5      5     12 0.01445 * 


# Type I
maov1 <- manova(Y ~ density + nitrate + Npred, data = Ena)
summary(maov1)

          Df  Pillai approx F num Df den Df  Pr(>F)    
density    1 0.99950     4762      5     12 < 2e-16 ***
nitrate    1 0.99995    46248      5     12 < 2e-16 ***
Npred      1 0.65582        5      5     12 0.01445 *  
Residuals 16                                           

답변:


71

II 형 SS라고 부르는 것은 III 형 SS라고 부릅니다. 두 가지 요인 A와 B가 있다고 상상해보십시오 (나중에 유형 II SS를 구별하기 위해 A * B 상호 작용을 나중에 던질 것입니다). 또한, 4 개의 셀에 서로 다른 이 있다고 가정 하자 (예를 들어, = 11, = 9, = 9, = 11). 이제 두 요인이 서로 관련되어 있습니다. (이를 직접 시도하고 1과 0의 2 열을 만들고 상관 관계를 ; nb 이 '유의 한' 경우 상관 없습니다 . 이것은 관심있는 전체 인구입니다). 상관 관계가있는 문제는 두 가지 와 관련된 제곱합이 있다는 것입니다.n 11 n 12 n 21 n 22 r = .1 rnn11n12n21n22r=.1rA와 B. ANOVA (또는 다른 선형 회귀)를 계산할 때, 우리 는 제곱합 을 분할 하려고합니다 . 파티션은 모든 제곱합을 하나의 유일한 칸에 넣습니다.여러 하위 집합의. (예를 들어, SS를 A, B 및 오류로 나눌 수 있습니다.) 그러나 요인 (여전히 A와 B 만 해당)이 직교하지 않기 때문에 이러한 SS의 고유 한 파티션이 없습니다. 실제로 파티션이 매우 많을 수 있으며 SS를 분수로 나눌 경우 (예 : "이 빈에 0.5를 넣고이 빈에 0.5를 넣습니다") 무한 파티션이 있습니다. 이것을 시각화하는 방법은 마스터 카드 기호를 상상하는 것입니다. 사각형은 총 SS를 나타내고 각 원은 해당 요인에 기인 한 SS를 나타내지 만 중앙에있는 원들 사이의 겹침에 유의하십시오. 어느 쪽이든

여기에 이미지 설명을 입력하십시오

문제는이 모든 가능성 중에서 '올바른'파티션을 어떻게 선택해야 하는가입니다. 상호 작용을 다시 시작하고 몇 가지 가능성을 논의합시다.

타입 I SS :

  • SS (A)
  • SS (B | A)
  • SS (A * B | A, B)

타입 II SS :

  • SS (A | B)
  • SS (B | A)
  • SS (A * B | A, B)

유형 III SS :

  • SS (A | B, A * B)
  • SS (B | A, A * B)
  • SS (A * B | A, B)

이러한 다양한 가능성이 어떻게 작동하는지 주목하십시오. 실제로 I 형 SS 만 마스터 카드 기호의 원 사이에 겹치는 부분에 해당 SS를 사용합니다. 즉, A 또는 B에 기인 할 수있는 SS 실제로 유형 I SS (특히 모델에 먼저 입력 한 SS)를 사용할 때 이들 중 하나에 기인합니다. 다른 접근 방법 모두에서 중복 SS는 사용되지 않습니다 전혀 . 따라서 유형 I SS는 A에 기여할 수있는 모든 SS (A에 기여할 수있는 것을 포함하여)를 A에게 제공 한 다음 B에 기여할 수 있는 나머지 SS를 모두 B에 제공 한 다음 A * B 상호 작용에 제공합니다. 의 나머지SS는 A * B에 ​​기인하며 오류 항에 의한 것으로 간주 할 수없는 남은 부분을 남깁니다.

유형 III SS 만에게 있습니다 그 SS 제공 고유 마찬가지로 그것은 단지 B하고있는 상호 작용하는 SS로 제공하는에 기인를 고유하게 그들에 기인. 오류 항은 어떤 요인으로도 볼 수없는 SS 만 가져옵니다. 따라서, 2 개 이상의 가능성에 기인 할 수있는 '모호한'SS는 사용되지 않습니다. 분산 분석표에서 유형 III SS를 합하면 총 SS와 같지 않음을 알 수 있습니다. 다시 말해서,이 분석 잘못 되어야 하지만 일종의 인식 론적으로 보수적 인 방식으로 잘못됩니다. 많은 통계 학자들은이 접근 방식이 엄청나다는 것을 알고 있지만, 정부 자금 지원 기관 (FDA)은이를 사용해야합니다.

유형 II 접근법은 유형 III의 아이디어에 대한 가치가있는 것을 포착하기위한 것이지만 그것의 초과에 대해서는 완화합니다. 특히 상호 작용이 아닌 A와 B의 SS 만 조정합니다. 그러나 실제로 유형 II SS는 본질적으로 사용되지 않습니다. 이 모든 것에 대해 알고 소프트웨어가 이러한 추정치를 얻을 수있을 정도로 정통해야하며, 일반적으로 이것이 이단이라고 생각하는 분석가도 필요합니다.

더 많은 종류의 SS가 있습니다 (IV와 V를 믿습니다). 그들은 60 년대 후반에 특정 상황을 다룰 것을 제안했지만 나중에 생각했던 것을하지 않는 것으로 나타났습니다. 따라서이 시점에서 그것들은 단지 역사적인 각 주일뿐입니다.

이 질문에 대한 어떤 질문에 대해서는 기본적으로 질문에 이미 있습니다.

  • 유형 I SS를 사용하는 추정값은 A로 Y에서 설명 할 수있는 변동량, B로 설명 할 수있는 잔차 변동량, 상호 작용으로 설명 할 수있는 나머지 잔차 변동량 등을 알려줍니다. 순서대로 .
  • 유형 III SS에 기초한 추정치는 다른 모든 것을 고려한 A에 의해 Y의 잔류 변동이 얼마나 많이 설명 될 수 있는지, 그리고 다른 모든 것을 고려한 후에 B에 의해 Y에서 잔류 변동이 얼마나 많이 설명 될 수 있는지를 알려줍니다. 뿐만 아니라 등등. (첫 번째와 마지막이 동시에 진행됩니다. 이것이 의미가 있고 연구 질문을 정확하게 반영하는 경우 III SS SS를 사용하십시오.)

2
매우 유용한 답변에 감사드립니다. 내가 혼란스러워하는 또 다른 영역은 "유형 I SS를 사용하는 추정치가 Y에서 얼마나 많은 변동성을 A로 설명 할 수 있는지, 얼마나 많은 잔여 변동을 B로 설명 할 수 있는지, 얼마나 많은 잔여 잔차를 가변성은 교호 작용에 의해 순서대로 설명 될 수 있습니다. "그러면 추가 변수가 추가 될 때 통계가 A 변경과 연관되는 이유는 무엇입니까? 테스트가 SS (A) / SS (오류)를 기반으로하고 오류가 모형에있는 모든 항의 함수이기 때문입니까? 나는 이것을 올바르게 생각하고 있습니까?
djhocking 2012 년

1
"A와 관련된 통계"에 따르면, 나는 A의 주요 효과에 대한 F 및 p- 값을 의미하는 것으로 해석합니다. A에 대한 F- 값은 A에 대한 평균 제곱 (즉, SSA / dfA)의 비율입니다. MS 에러. 더 많은 요인을 추가하면 SS는 오류 항에서 가져 와서 해당 요인에 제공됩니다. 일반적으로 이는 MS 에러가 감소하여 비율이 증가 함을 의미합니다. 결과적으로 A에 대한 F- 값이 커지고 p- 값이 작아집니다. 자유도 또한 변하기 때문에 이것보다 더 복잡 할 수 있지만, 그것은 그 요점입니다.
gung-복직 모니카

죄송합니다. F 통계량에 대한 MS (A) / MSE를 의미했습니다. 어쨌든, 당신의 대답은 완벽합니다. 모든 도움에 다시 한번 감사드립니다!
djhocking

타입 I을 사용할 때 해석의 세부 사항에 대해 궁금합니다. 필자의 경우 밀도는 관심있는 유일한 변수이며 실험적으로 조작 한 유일한 변수입니다. 그러나 불행히도 밀도는 자체적으로 또는 내 관심있는 두 가지 다른 변수 (Npredators, II 형 또는 III 형 무기질 무기)를 고려한 후에는 중요하지 않습니다. 그러나 무기질 N은 변수를 세 번째 변수로 추가 할 때 일부 종속 변수의 많은 변화를 설명하기 때문에 다른 두 변수는 매우 중요합니다. 따라서 밀도가 Y에 실제로 큰 영향을 미칩니 까? 이것이 합리적입니까?
djhocking

2
@JonBonJovi, MasterCard 유추에는 두 가지 요소 만 있습니다. 2 개의 요소와 교호 작용을 원한다면 서로 겹치는 3 개의 영역이 필요합니다. 3 개의 영역으로 오일러 다이어그램을 그릴 수는 있지만 간단하게 MasterCard 심볼을 사용했습니다. 상호 작용을 위해 첫 번째 2와 겹치는 3 번째 원을 상상해보십시오 (예 : 오른쪽에서 왼쪽으로 중심을 잡을 수 있지만 대부분 다른 것보다 위를 향할 수 있음). 다음 모든 는 A 원 (SS)의 이동 것, B의 모든 A가 겹치지 않는 A의 B에 간다, 모든 겹치지 않는 B *이 중 또는 B는 상호 작용에 간다.
gung-모니 티 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.