여러 그룹의 평균을 비교하는 분산 분석과 중첩 모델을 비교하는 분산 분석의 관계는 무엇입니까?


12

지금까지 ANOVA가 두 가지 방식으로 사용되는 것을 보았습니다.

먼저 , 나의 입문 통계 텍스트에서, ANOVA는 평균 중 하나가 통계적으로 유의 한 차이가 있는지를 결정하기 위해 쌍별 비교에 대한 개선으로 3 개 이상의 그룹의 평균을 비교하는 방법으로 도입되었습니다.

둘째 , 통계 학습 텍스트에서 ANOVA는 모델 2 예측 변수의 하위 집합을 사용하는 모델 1이 데이터를 똑같이 잘 맞추는 지, 또는 전체가 맞는지 결정하기 위해 두 개 이상의 중첩 모델을 비교하는 데 사용되는 것을 보았습니다. 모델 2가 우수합니다.

이제 두 가지 방법이 모두 분산 분석 테스트를 사용하기 때문에 실제로 어떤면에서나 매우 유사하다고 가정하지만 표면 상에서는 나에게 매우 다르게 보입니다. 하나의 경우, 첫 번째 사용은 세 개 이상의 그룹을 비교하는 반면 두 번째 방법은 두 모델 만 비교하는 데 사용할 수 있습니다. 누군가이 두 가지 용도 사이의 연결을 설명해 주시겠습니까?


3
간단히 말해서, 두 번째 "anova"는 전혀 분산 형이 아니라고 생각합니다 ( en.wikipedia.org/wiki/Analysis_of_variance 를 읽으면 중첩 모델 비교에 대한 언급이 없습니다). 그것은이다 en.wikipedia.org/wiki/F-test 과 같이 R로 구현있어 anova()제 때문에 실제 ANOVA는 또한 F-test를 이용하고, 기능. 이것은 용어 혼동으로 이어진다.
amoeba 말한다 Reinstate Monica

고마워 머리에 못을 박았다고 생각합니다! anova()함수가 단순히 분산 이상을 수행 할 수 있다고 생각하지 않았습니다 . 이 게시물은 다음과 같은 결론을 뒷받침합니다 : stackoverflow.com/questions/20128781/f-test-for-two-models-in-r
Austin

1
나는 다중 표본 검정으로서 ANOVA가 중첩 모형 우위 검정과 ANOVA와 동일하다는 점을 대학원 통계 학자에게 배웠다. 똑같은 것은 모델이 없거나 간단한 모델로 인한 잔차의 합 (또는 평균)을 모델로 인한 잔차와 비교한다는 것을 의미하며 F- 검정은 가정이 충족되는 경우 두 상황에 모두 적용됩니다. 내가 시도한 대답은 그것에 관한 것입니다. 나는 제로 (1 모델 F-stats)와 다른 하나 이상의 lm 계수와 잔차의 합 사이의 연결을 이해하는 데 관심이 있습니다.
Alexey Burnakov

답변:


11

내가 이해 한 바에 따르면, ANOVA의 추상 직관은 다음과 같습니다. 관찰 된 변수의 분산 원을 다양한 방향으로 분해하고 각각의 기여도를 조사합니다. 보다 정확하게하기 위해, 아이덴티티 맵을 하나의 투영으로 분해하고 어떤 투영 / 방향이 분산을 설명하는 데 중요한 기여를하며 그렇지 않은지를 조사합니다. 이론적 근거는 코크란의 정리 이다.

덜 요약하기 위해 OP에서 언급 한 두 번째 양식을 방금 설명한 프레임 워크에 캐스트했습니다 . 결과적으로, 나는 첫 번째 형식을 두 번째 형식의 특별한 경우로 해석합니다 .

설명 변수 (전체 모델)가 있는 회귀 모델을 고려하여 K - J 변수 가있는 제한된 모델과 비교해 보겠습니다 . 전체 모델 의 마지막 J 변수 인 WLOG 는 제한된 모델에 포함되지 않습니다. ANOVA가 대답 한 질문은KKJJ

" 추가 변수를 포함 시키면 관측 된 변수의 차이를 훨씬 더 많이 설명 할 수 있습니까J ? "

이 문제는 첫 번째 변수, 다음 J 변수 및 나머지 / 설명되지 않은 부분 (잔여 제곱의 합)의 분산 기여도를 비교하여 대답합니다 . 이 분해 (예 : Cochran의 정리에서 얻은)는 F- 검정을 구성하는 데 사용됩니다. 따라서, 하나의 제한된 모델의 제곱의 잔여 합계에서 (기타 변수를 포함하여) 환원 분석 (에 대응 H 0 : 모든 계수가 마지막에 속하는 J 변수 제로인 이상의 변수를 포함하여 상기 F 통계량을 취득) R S S r e s t rRKJJH0: 제이 값이 충분히 크면 추가J변수에의해 설명 된 분산이 중요합니다.

아르 자형에스에스아르 자형이자형에스아르 자형아르 자형에스에스에프제이아르 자형에스에스에프케이
제이

이제 OP에서 언급 한 첫 번째 형식두 번째 형식 의 특수한 경우로 해석됩니다 . 평균 , μ Bμ C를 갖는 세 가지 다른 그룹 A, B 및 C를 고려하십시오 . H 0 : μ = μ B = μ C는 상기 편차가 절편, 그룹 A에 대한 더미 (dummy)를 포함하는 풀 모델에 의해 설명과 절편에 회귀 (제한된 모델) 및하여 설명 분산을 비교함으로써 시험 더미 그룹 B. 얻어진 통계량 F- R S S I N tμμμH0:μ=μ=μWikipedia의 ANOVA 테스트와 동일합니다. 분모는 그룹 내의 변동과 같고 분자는 그룹 간의 변동과 같습니다. 그룹 간의 변동이 그룹 내의 변동보다 큰 경우 모든 평균이 같다는 가설을 기각합니다.

아르 자형에스에스나는이자형아르 자형이자형아르 자형에스에스미디엄미디엄나는이자형에스2아르 자형에스에스미디엄미디엄나는이자형에스

+1. stats.stackexchange.com/questions/315979/#comment602611_315979 의 의견에서 용어에 대한 내 의견에 동의하는지 궁금합니다 .
amoeba는 Reinstate Monica가

나는 용어에 많은 혼란이 있음에 분명히 동의한다 ;-). 대략적으로, 나는 ANOVA를 첫 번째 형태의 OP 와만 연관시킨다. 방금 Scheffé의 저서 "변형 분석 (The Analysis of Variance)"에서 "중첩 디자인"이 언급되었습니다.
bmbb

@bmbb, 나는 마지막 주석에 이것을 추가 할 것입니다 : 중첩 된 lm 모델을 비교하는 간단한 경우 중 하나는 인터셉트입니다. 절편이있는 모형에 대해 저에게 충격을 주었던 사실은 잔차를 참조 할 때 잔차가 변수 평균 (모델의 절편)을 기준으로 계산되고 편차가 있기 때문에 편차를 참조한다는 것입니다. 표본 평균. 따라서 우리는 공식적으로 잔차를 분석하더라도 중첩 모형의 경우 분산 분석을 수행합니다.
Alexey Burnakov

6

그룹간에 유의 한 차이가 있는지 테스트하기 위해 단방향 분산 분석을 수행하는 경우 내포 적으로 두 개의 중첩 모델을 비교하는 것입니다 (따라서 하나의 중첩 레벨 만 있지만 여전히 중첩 임).

이 두 모델은 다음과 같습니다.

  • 와이나는제이나는제이β^0
    와이나는제이=β^0+ϵ나는
  • 모형 1 : 값은 그룹의 추정 된 수단으로 모형화됩니다.

    β제이^

    와이나는=β^0+β^제이+ϵ나는

평균과 등가 모형을 중첩 모형과 비교하는 예 : 홍채 데이터 세트에서 sepal 길이 (cm)를 보자 (4 개의 변수를 모두 사용하는 경우 실제로 Fisher는 1936 년에 Fisher와 마찬가지로 LDA 또는 MANOVA를 수행 할 수 있음)

관찰 된 총 및 그룹 평균은 다음과 같습니다.

μ영형=5.83μ에스이자형영형에스=5.01μV이자형아르 자형에스나는영형영형아르 자형=5.94μV나는아르 자형나는나는=6.59

다음은 모델 형식입니다.

모델 1 : 와이나는제이=5.83+ϵ나는모델 2 : 와이나는제이=5.01+[00.931.58]제이+ϵ나는

ϵ나는2=102.1683

ϵ나는2=38.9562

그리고 ANOVA 테이블은 다음과 같습니다 (그리고 2 자유도를 가진 테이블의 63.212 인 그룹 제곱의 합 사이 의 차이를 암시 적으로 계산합니다 ).

> model1 <- lm(Sepal.Length ~ 1 + Species, data=iris)
> model0 <- lm(Sepal.Length ~ 1, data=iris)
> anova(model0, model1)
Analysis of Variance Table

Model 1: Sepal.Length ~ 1
Model 2: Sepal.Length ~ 1 + Species
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1    149 102.168                                  
2    147  38.956  2    63.212 119.26 < 2.2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

에프=아르 자형에스에스나는에프에프이자형아르 자형이자형이자형에프나는에프에프이자형아르 자형이자형이자형아르 자형에스에스이자형에프이자형=63.212238.956147=119.26

예제에서 사용 된 데이터 세트 :

아이리스 꽃 3 종에 대한 꽃잎 길이 (cm)

Iris setosa            Iris versicolor      Iris virginica
5.1                    7.0                    6.3
4.9                    6.4                    5.8
4.7                    6.9                    7.1
4.6                    5.5                    6.3
5.0                    6.5                    6.5
5.4                    5.7                    7.6
4.6                    6.3                    4.9
5.0                    4.9                    7.3
4.4                    6.6                    6.7
4.9                    5.2                    7.2
5.4                    5.0                    6.5
4.8                    5.9                    6.4
4.8                    6.0                    6.8
4.3                    6.1                    5.7
5.8                    5.6                    5.8
5.7                    6.7                    6.4
5.4                    5.6                    6.5
5.1                    5.8                    7.7
5.7                    6.2                    7.7
5.1                    5.6                    6.0
5.4                    5.9                    6.9
5.1                    6.1                    5.6
4.6                    6.3                    7.7
5.1                    6.1                    6.3
4.8                    6.4                    6.7
5.0                    6.6                    7.2
5.0                    6.8                    6.2
5.2                    6.7                    6.1
5.2                    6.0                    6.4
4.7                    5.7                    7.2
4.8                    5.5                    7.4
5.4                    5.5                    7.9
5.2                    5.8                    6.4
5.5                    6.0                    6.3
4.9                    5.4                    6.1
5.0                    6.0                    7.7
5.5                    6.7                    6.3
4.9                    6.3                    6.4
4.4                    5.6                    6.0
5.1                    5.5                    6.9
5.0                    5.5                    6.7
4.5                    6.1                    6.9
4.4                    5.8                    5.8
5.0                    5.0                    6.8
5.1                    5.6                    6.7
4.8                    5.7                    6.7
5.1                    5.7                    6.3
4.6                    6.2                    6.5
5.3                    5.1                    6.2
5.0                    5.7                    5.9

1
+1이지만 데이터 테이블을 라텍스 테이블로 포맷하는 것은 실제로 나쁜 습관입니다! 어디에서나 복사하여 붙여 넣을 수 없습니다! 실제로 데이터를 포함하려면 데이터를 코드 블록으로 포맷하지 않겠습니까? 그러나이 경우 데이터가 포함 된 Wikipedia Fisher Iris 기사에 연결할 수도 있습니다.
amoeba는 Reinstate Monica가

또한이 의견 stats.stackexchange.com/questions/315979/#comment602611_315979 에서 언급 한 용어 문제에 대한 귀하의 의견은 무엇 입니까?
amoeba는 Reinstate Monica가

1
퍼지 용어가 큰 문제라고 믿지 않습니다. 내 생각에 나는 실제로 분산 분석을 그룹 내 및 그룹 간의 분산 비교로 간주하지 않으며 항상 두 모델의 비교를 정신적으로 투영합니다. 나는 두 개의 독립 카이 제곱 분포 변수의 비율 인 f- 분포가 특정 의미, 변동 비율이기 때문에 큰 문제라고 생각하지 않습니다. 중첩 모형을 연구하기 위해 f- 검정을 적용하는 것은 변이를 비교하고 변이를 분석하는 것입니다. 따라서 ANOVA는 나에게 괜찮아 보입니다 (현재 역사적인 참조를 찾으려고 노력 중입니다).
Sextus Empiricus

나는 이것이 문제라고 말하는 것이 아니다. 그러나 "ANOVA"라는 용어가 R에서만 중첩 모델을 비교하는 F- 검정 (내 링크 된 주석에서 제안한 바와 같이) 또는 더 널리 사용되는 용어인지 궁금합니다. 나는 교과서를 확인하지 않았으므로 Wikipedia에서만 나옵니다.
amoeba는 Reinstate Monica가

Fisher의 1925 통계 방법에서 '분산 분석'을 설명 할 때이 기법을 회귀선에 적용하는 예제가 포함됩니다 (중첩 모델은 제외).
Sextus Empiricus

1

여러 모델 간 비교에서 ANOVA의 사용은 순서가 높은 모델에 사용 된 (및 순서가 낮은 모델에없는) 계수 중 하나 이상이 0과 크게 다른지 여부를 테스트하는 것을 의미합니다.

그것은 고차 모델의 잔차의 합이 저차 모델의 잔차의 합보다 훨씬 적다는 것을 말하는 것과 같습니다.

사용 된 기본 방정식은

MSM/MSE

여기서 MSM은 하위 모델의 잔차 제곱의 평균입니다 (여기서 가장 낮은 차수는 목표 변수, 즉 절편의 평균입니다).

( http://www.stat.yale.edu/Courses/1997-98/101/anovareg.htm )

CV에서 비슷한 주제를 읽을 수 있습니다.

두 모델 비교에 anova를 사용하는 방법은 무엇입니까?


IMHO 이것은 질문에 대답하지 않습니다.
amoeba 말한다 Reinstate Monica

1

내가 배운 것에서

분산 분석표를 사용하여 설명 변수가 실제로 반응 변수에 중요한 영향을 미치므로 적절한 모형에 맞는지 확인할 수 있습니다.

엑스1엑스2엑스2

와이=β0+β1엑스1+β2엑스2+ϵ
와이=β0+β1엑스1+ϵ

엑스1

다음은 R에서 작업중 인 프로젝트의 ANOVA 출력 예입니다. 여기서 두 가지 모델 (가변 일이있는 모델과 가변 일이없는 모델)을 테스트합니다.

여기에 이미지 설명을 입력하십시오

보시다시피, F- 검정의 해당 p- 값은 0.13으로 0.05보다 큽니다. 따라서 Days가 Y에 영향을 미치지 않는다는 귀무 가설을 기각 할 수 없습니다. 따라서 저는 모형 2보다 모형 1을 선택합니다.


IMHO 이것은 질문에 대답하지 않습니다.
amoeba 말한다 Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.