분산 분석의 가정 정규성 / 정규 분포


52

ANOVAWikipedia 페이지에는 세 가지 가정이 나열되어 있습니다 .

  • 사례의 독립성 – 이것은 통계 분석을 단순화하는 모델의 가정입니다.
  • 정규성 – 잔차 분포가 정상입니다.
  • 균일 성이라고하는 분산의 평등 (또는 "균질성")

여기서 관심 지점은 두 번째 가정입니다. 여러 출처에서 가정을 다르게 나열합니다. 일부는 원시 데이터의 정규성을 말하고 일부는 잔차를 주장합니다.

몇 가지 질문이 나타납니다.

  • 잔차의 정규성과 정규 분포는 같은 사람입니까 (위키 백과 항목을 기준으로, 정규성이 속성이라고 주장하고 잔차를 직접적으로 포함하지는 않습니다 (그러나 잔차의 속성은 괄호 안에 깊게 중첩 된 텍스트 일 ​​수 있습니다))?
  • 그렇지 않다면 어떤 가정을 견뎌야합니까? 하나? 양자 모두?
  • 정규 분포 잔차의 가정이 올바른 경우, 우리는 정규 값에 대한 원시 값의 막대 그래프 만 검사하여 중대한 실수를 저지르고 있습니까?

원시 데이터가 정상적으로 분산되어야한다고 주장하는 다른 소스는 무시해도됩니다. 그리고 "우리"는 어쨌든 막대 그래프만으로 원시 값을 확인하고 있다고 말했습니다. 당신은 그 식스 시그마 수업 중 하나입니까 ???
DWin

1
@Andy W : ANOVA에 대한 Wikipedia 기사의 관련 섹션으로 보이는 링크를 추가했습니다.
onestop

@DWin : blog.markanthonylawson.com/?p=296 (죄송하지만, 주제를 완전히 벗어 났지만 저항 할 수 없었습니다)
onestop

@onestop 감사합니다. 나는 게으르고 링크를 요청했기 때문에 질문에 필수적이지 않기 때문에 위키 백과에서 직접 ANOVA를 조회하고 싶지 않았습니다.
앤디 W

답변:


35

이것이 고정 효과 모델 이라고 가정 해 봅시다 . (임의의 효과 모델은 실제로 변경되지 않으며 조금 더 복잡해집니다.)

  1. 아니오, 잔차의 정규 분포와 정규 분포는 동일하지 않습니다 . 비료를 사용하거나 사용하지 않은 작물의 수확량을 측정했다고 가정합니다. 비료가없는 플롯에서 수율은 70에서 130 사이였다. 비료가있는 두 플롯에서 수율은 470에서 530까지였다. 결과 분포는 매우 비정규 적이다. 이는 비료 적용과 관련된 두 위치에 모여있다. 또한 평균 수율이 각각 100과 500이라고 가정합니다. 그런 다음 모든 잔차의 범위는 -30에서 +30입니다. 그것들은 정규 분포 일 수도 있고 아닐 수도 있지만, 이것은 분명히 완전히 다른 분포입니다.

  2. 잔차 의 분포 는 모형의 임의 부분을 반영하기 때문에 중요 합니다. p- 값은 F (또는 t) 통계량에서 계산되며 원래 값이 아닌 잔차에 따라 달라집니다.

  3. (이 예에서와 같이) 데이터에서 의미 있고 중요한 효과가있는 경우에, 당신은 할 수 는 "무덤"실수를 할 수 . 운 좋게도 올바른 결정을 내릴 수 있습니다. 즉, 원시 데이터를 보면 분포가 혼합되어 있으며 이는 정상적인 것처럼 보일 수 있습니다. 요점은 당신이보고있는 것이 관련이 없다는 것입니다.

모형에 적합하기 위해 ANOVA 잔차가 법선에 가까운 곳에있을 필요는 없습니다. 그러나 F- 분포에서 계산 된 p- 값이 의미를 갖기 위해서는 잔차의 정규성이 거의 필요 합니다.


6
추가해야 할 중요한 점이 있다고 생각합니다. 분산 분석에서 각 그룹의 정규성은 전체가 아니라 잔차의 정규성과 같습니다.
Aniko

2
@Aniko 귀하의 의견에서 "동등한"의 의미에 대해 자세히 설명해 주시겠습니까? 그룹 내 정규성은 해당 그룹의 잔차의 정규성과 동일하다는 것이 거의 팽팽하지만, 각 그룹 내에서 별도로 정규성이 잔차의 정규성을 암시 (또는 암시)한다는 것은 거짓입니다.
whuber

7
나는 정말로 팽팽한 의미를 의미했다 : 만약 그룹이 정상이라면 잔차는 정상이다. 역 분산이 추가 된 경우 (ANOVA에서와 같이) 반대의 경우도 마찬가지입니다. 나는 잔차 대신에 그룹을 확인하도록 옹호하는 것을 의미하지는 않지만 이것이 가정의 다양한 표현에 대한 근본적인 이유라고 생각합니다.
Aniko

2
분산 분석을 수행하는 사람들은 일반적으로 p- 값 계산에 관심이있는 것으로 나타 났으므로 잔차의 정규성이 그들에게 중요합니다. F- 분포에서 p- 값을 계산하는 데 관심이없는 경우 분산 분석 모형에 적합해야하는 일반적인 이유가 있습니까? 이 질문이 너무 광범위하여 의견을 제시 할 경우 사과드립니다.
user1205901

3
@ user1205901 아주 좋은 지적입니다. F 검정에 의존하지 않는 ANOVA의 두 가지 일반적인 용도는 (1) 효과 추정값을 얻는 편리한 방법이며 (2) 분산 계산 구성 요소의 일부 및 소포입니다.
whuber

8

표준 클래식 일원 분산 분석은 클래식 "2- 샘플 T- 검정"을 "n- 샘플 T- 검정"으로 확장 한 것으로 볼 수 있습니다. 이는 일원 분산 분석을 두 그룹으로 만 비교하여 기존의 2- 표본 T- 검정과 비교하여 볼 수 있습니다.

나는 당신이 혼란스러워하는 곳은 (모델의 가정 하에서) 잔차와 원시 데이터가 모두 정규 분포되어 있다는 것입니다. 그러나 미가공 데이터는 평균 이 다른 정규 분포 (모든 효과가 정확히 동일하지 않은 경우)이지만 분산 은 동일 합니다. 반면에 잔차는 동일한 정규 분포를 갖습니다 . 이것은 동성애의 세 번째 가정에서 비롯됩니다.

Yijμjσ2Yij=μj+σϵijϵij

ϵij

Yij


1
동질성 가정을 지적하기 위해 +1.
whuber

우리가 경우 의미 하는가 하자 말을 N (결과에 의존 그룹은 우리가 별도로 잔류를 확인해야 비교하는 n 개의 잔여 그룹)?
stan

5

pnjF=SSb/dfbSSw/dfw

SSb=j=1pnj(MMj)2

SSw=j=1pi=1nj(yijMj)2

FFSSb/dfbSSw/dfwχ2dfbdfwSSbSSw0MMjyijMj

yi(j)MjY=μj+ϵ=μ+αj+ϵyi(j)MY=μ+ϵMMj

H0Myi(j)MjMMj


2
SSχ2Mj=MjyijMjMjM

@onestop 설명을 반영하도록 수정되었습니다. 감사합니다.
caracal
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.