ANOVA는 어떤 질문에 대답합니까?


10

분산 분석을 배우고 싶습니다. 알고리즘의 작동 방식 (계산이 수행되는 방식) 및 작동 방식을 배우기 전에 먼저 ANOVA로 어떤 문제를 해결하는지, 또는 어떤 대답을하려고하는지 알고 싶습니다. 다시 말해, 알고리즘의 입력과 출력은 무엇입니까?

입력으로 무엇을 사용하는지 이해합니다. 우리는 일련의 숫자를 가지고 있습니다. 각 숫자에는 하나 이상의 범주 형 변수 ( "인자"라고도 함) 값이 있습니다. 예를 들면 다음과 같습니다.

+------------+------------+-------+
|   factor 1 |   factor 2 | value |
+------------+------------+-------+
|     "A"    |     "a"    |  1.0  |
|     "A"    |     "a"    |  2.4  |
|     "A"    |     "b"    |  0.3  |
|     "A"    |     "b"    |  7.4  |
|     "B"    |     "a"    |  1.2  |
|     "B"    |     "a"    |  8.4  |
|     "B"    |     "b"    |  0.4  |
|     "B"    |     "b"    |  7.2  |
+------------+------------+-------+

ANOVA가 값의 평균에 대한 요인의 영향이 없다는 귀무 가설의 p- 값을 계산한다고 말하는 것이 맞습니까? 다시 말해, 우리는 위에서 주어진 데이터를 알고리즘에 제공하고 결과적으로 귀무 가설의 p- 값을 얻는가?

이 경우 p- 값을 계산하기 위해 실제로 어떤 측정 값을 사용합니까? 예를 들어, 귀무 가설을 감안할 때 M은 1 %의 경우 우연히 관찰 된 것보다 높을 수 있습니다. M은 무엇입니까?

또한 분산 분석의 요인을 개별적으로 조사하지 않습니까? ANOVA는 factor_1이 효과가 있지만 factor_2는 효과가 없다고 말할 수 있습니까? ANOVA는 값 "A", "B"및 "C"에 해당하는 주어진 요인 값에 대해 통계적으로 구별 할 수 없지만 (예를 들어 같은 평균을 가짐) 값 "D"가 영향을 미친다고 말할 수 있습니까?

답변:


6

분산 분석은 "분산 분석"을 나타냅니다. 의심 할 여지없이 분산을 분석합니다.

좀 더 명확하게합시다. 관찰 결과에 약간의 차이가 있습니다. 관측치를 요인 1별로 그룹화하면 요인 1에 의해 정의 된 그룹 내의 분산이 전체 분산보다 작습니다. 요인 1은 "편차를 설명합니다".

그러나 이것은 요인 1이 실제로 관측치와 관계가 있다는 결론을 내리기에 충분하지 않습니다. 무엇인가를 기준으로 그룹화 하면 분산이 "설명"될 있기 때문 입니다. 좋은 점은 귀무 가설이 실제로 관측치와 아무런 관련이 없다는 귀무 가설 하에서 얼마나 많은 분산이 설명 될지 알고 있다는 것입니다. 널 (null) 아래에 설명 된이 분산 량은F 분포.

따라서 ANOVA의 전략은 전체 분산 및 그룹 내 분산 (제곱합 사용)을 추정하고 이러한 추정 분산의 비율을 취하는 것입니다. 이 비율은F통계량. 우리는 이것을 비교합니다F 의 임계 값에 대한 통계 F 단측 검정으로 분포하여 p값. 요인 수준의 수는F분포 (더 많은 요인 수준은 귀무 가설 하에서 더 많은 분산을 설명 할 것임), 관측치 수와 수준 수는 다른 것으로 이동합니다. 이 초기 질문이 도움이 될 수 있습니다.

(단일 검정 인 이유는 무엇입니까? 위와 같이 모든 그룹화는 약간의 차이를 설명하므로 요인이 상당히 많은 차이를 설명하는지 여부 만 확인하는 것이 좋습니다 .)

Wikipedia 항목"동기화 예"섹션 에는 전체적으로 거의 차이가 거의없는 일부를 설명하는 몇 가지 요소가 설명되어 있습니다.

ANCOVA뿐만 아니라 예제와 같이 양방향 ANOVA와 상호 작용은이 주제에 대한 일반 화일뿐입니다. 각각의 경우, 우리는 설명 변수를 추가하는 것이 상당히 많은 양의 분산을 설명하는지 여부를 조사합니다.

일단 우리가 전체적으로 중요한 F테스트 후, 특정 요인 수준의 관측치가 사후 시험 에서 다른 요인과 유의하게 다른지 여부를 조사 할 수 있습니다 . 예를 들어 D는 A, B 및 C와 다를 수 있지만 서로 크게 다르지 않을 수 있습니다. 일반적으로 사용합니다t이것에 대한 테스트. 이 이전 질문은 유용뿐만 아니라 수 있습니다 이것 .


따라서 모든 수를 사용하여 전체 분산을 계산합니다. V각 그룹의 분산을 계산합니다. vi 마지막으로 우리는 "측정"을 얻기 위해 이러한 모든 분산을 (아마도 그룹 크기와 함께) 결합합니다 M=M(V,v1,v2,...,vk,n1,n2,...,nk). 그런 다음 귀무 가설이 정확하다는 가정하에 M이 크거나 클 확률을 계산합니다.
로마

바로 그거죠. M 너의 F통계량. 실제 공식은 다음과 같습니다.
Stephan Kolassa

솔직히 말해서 나는 아직도 약간 혼란 스럽다. 내가 얻은 한 ANOVA는 귀무 가설의 p- 값을 반환합니다. 그러나 위키피디아의 "동기화 예"에서 ANOVA는 데이터를 가장 잘 설명하는 최상의 요소 (또는 여러 요소의 조합)를 제공한다고 결론을 내릴 수 있습니다. 따라서 ANOVA의 예에서는 품종이 개의 무게를 설명하는 가장 좋은 요소라고 말합니다.
로마

1
"최고"가로드되었습니다. 이것은 단계적 모델 선택 기반의 p 값 영역으로 빠져 나가는데 문제가있다. 동기 부여 예제를 너무 많이 읽지 마십시오. 그것에 대한 가장 좋은 점은 설명 된 분산의 묘사입니다 (제로, 조금, 많이). 아래로 내려 가서F통계량은 제곱합을 기준으로 계산되며 이러한 제곱합은 분산의 추정치 일뿐입니다.
Stephan Kolassa
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.