분산 분석 : 그룹당 샘플 수가 적은 많은 그룹의 정규성 가정 테스트


12

다음 상황을 가정하십시오.

우리는 작은 그룹 크기 (예 : n = 3)로 많은 수 (예 : 20)를 가지고 있습니다. 균일 분포에서 값을 생성하면 오차 분포가 균일하더라도 잔차가 거의 정상적으로 보입니다. 다음 R 코드는이 동작을 보여줍니다.

n.group = 200
n.per.group = 3

x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)

세 그룹의 샘플 잔차를 보면 동작의 이유가 분명합니다.

r1=x1mean(x1,x2,x3)=x1x1+x2+x33=23x1x2x3.

여기에 이미지 설명을 입력하십시오

은 표준 편차가 거의 다르지 않은 임의의 변수의 합 이므로 분포는 개별 항보다 정규 분포에 상당히 가깝습니다.r1

이제 시뮬레이션 된 데이터 대신 실제 데이터와 동일한 상황이 있다고 가정하십시오. 정규성에 대한 분산 분석 가정이 적용되는지 평가하고 싶습니다. 가장 권장되는 절차는 잔차 (예 : QQ-Plot)의 육안 검사 또는 잔차에 대한 정규성 테스트를 권장합니다. 위의 예와 같이 소규모 그룹에는 적합하지 않습니다.

소규모 그룹이 많은 경우 더 나은 대안이 있습니까?


1
여러 가지 이유로 문제가 아닌 것으로 보입니다. 먼저, 잔차가 균일하게 나타납니다. 이것을보기 위해 막대한 수의 그룹에 대한 히스토그램을보십시오. 둘째, 잔차의 정규성은 대부분의 분석에서 거의 중요하지 않습니다. 중요한 것은 샘플링 분포의 대략적인 정규성입니다. 그렇다면 응용 프로그램의 어떤 특별한 측면에서 실제 문제가 있다고 가정합니까?
whuber

1
a) 잔차가 일정하지 않습니다. 나는 이것을 20에서 20000까지의 여러 그룹 (그룹당 샘플이 아님)에 대해 테스트했습니다. 질문에 예제를 첨부했습니다. 그것은 일정한 경향과 함께 정상과 정상 사이의 무언가처럼 보입니다. b) 샘플링 분포의 대략적인 정규성에 관한 것임을 알고 있습니다. 이것은 잔차가 정상적으로 보일 것이기 때문에 문제의 전체 요점이지만 샘플링 분포는 그렇지 않습니다. 따라서 잔차를 사용하여 샘플링 분포의 속성을 테스트 할 수 없습니다.
Erik

2
맞아요. 그러나 실제로 오류 분포에 관심이 있습니까, 아니면 분산 분석 수행에 관심이 있습니까? (나는 그 질문을 무시해야한다는 것을 암시하려고하지 않는다. 그것은 당신이 제기 한 매혹적인 문제이다. 그러나 나는 당신의 데이터 분석을 진행하기 위해 실제로 답이 필요한지 궁금하다.)
whuber

3
그러나 동일한 시뮬레이션을 사용하여 사례에서 ANOVA의 견고성을 조사 할 수 있습니다!
kjetil b halvorsen

4
약간 접선이지만 관련성있는 의견 : 일반적으로 가설 검정을 수행하기 전에 정규성 검정 (또는 다른 모형 가정)을 사용하면 다음과 같은 세 가지 문제가 발생합니다. 1) 그렇게하면 다중 검정을 고려해야합니다. 2) 대체 가설을 거부한다고해서 (예 : "정상 아님")은 정상을 결론 내릴 수 있다는 것을 의미하지는 않습니다. 3) 모델 가정에 대한 테스트에는 자체 모델 가정이 있으므로 어디에서 멈추어야합니까?
Martha

답변:


1

이 답변에 대한 작업은 완전히 완료되지 않았습니다. 이것에 대한 통찰력이 있지만 설명하는 데 시간이 걸립니다. 이를 위해 작은 수의 표준 편차가 바이어스된다는 것을 고려하십시오. 그 이유는 두 개의 숫자 취 하면 표본 평균을 임의로 할당합니다 . 여기서 모집단 평균 는 사이의 간격 이거나 또는 있습니다. 이것은 평균적으로 입니다. 경우에 따라서,이 아니라 있음 이 바이어스가 작아진다a<ba+b2σ(a,b)σ<aσ>bSD<σn>100. 적은 수의 샘플 각각에 대한 일련의 긴 SD의 경우 SD 계산이보다 정확하고 정확하지 않습니다.

이제 좌절감을 느끼지 말고 정상적인 상황에서 SD에 작은 수의 수정을 적용 할 수 있습니다. (하! 불행에 대한 해결책이 있습니다.)

SD(n)μ(n)=2n1Γ(n2)Γ(n12)=114n732n219128n3+O(n4) 참조E[μ]

를 들어 , 이것이 . 이는 를 추정하기 위해 SD를 그만큼 나눠야 함을 의미합니다 .n=3Γ(32)=π20.8862269255σ

지금 당신이 제시하는 경우에도 당신은 몇 가지 다른 일이 진행되고 있습니다. 그렇기 때문에 균일 분포의 최적 위치 측정은 평균이 아닙니다. 표본 평균과 표본 중앙값이 중간 점의 편견 추정치이지만, 표본 중간 범위, 즉 표본 최대 값과 표본 최소값의 산술 평균 (최소-편차 비 편향 추정량 UMVU)만큼 효율적 이지는 않습니다. 중간 점 추정기 (및 최대 우도 추정치).

이제 문제의 고기에. 극단적 인 값의 평균을 사용하는 경우 데이터가 실제로 균일하게 분포되어 있으면 위치 측정의 분산이 더 작아집니다. 단일 극값 꼬리가 정상일 수 있기 때문에 정규 분포 일 수 있습니다. 그러나 3 개의 표본 만 사용하면 표준 편차를 수정해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.