샘플 분포가 정규성을 벗어날 때 t- 검정 이 "합리적으로 강력" 하다는 것을 읽었습니다 . 물론 중요한 차이의 샘플링 분포입니다. 두 그룹에 대한 데이터가 있습니다. 그룹 중 하나가 종속 변수에 치우쳐 있습니다. 표본 크기는 두 그룹 모두에 대해 상당히 작습니다 (하나는 n = 33, 다른 하나는 45). 이러한 조건에서 내 t- 검정 이 정규성 가정 위반에 강력 할 것이라고 가정해야합니까?
샘플 분포가 정규성을 벗어날 때 t- 검정 이 "합리적으로 강력" 하다는 것을 읽었습니다 . 물론 중요한 차이의 샘플링 분포입니다. 두 그룹에 대한 데이터가 있습니다. 그룹 중 하나가 종속 변수에 치우쳐 있습니다. 표본 크기는 두 그룹 모두에 대해 상당히 작습니다 (하나는 n = 33, 다른 하나는 45). 이러한 조건에서 내 t- 검정 이 정규성 가정 위반에 강력 할 것이라고 가정해야합니까?
답변:
견고성에 대한 질문은 대답하기가 매우 어렵습니다. 가정은 여러 가지 방식으로, 각기 다른 방식으로 위반 될 수 있기 때문입니다. 시뮬레이션 작업은 가능한 위반의 아주 작은 부분 만 샘플링 할 수 있습니다.
컴퓨팅의 상태를 감안할 때, 나는 종종 실행할 수있는 시간을 가치라고 생각합니다 모두 모두 사용할 수있는 경우, 파라 메트릭 및 비 - 파라 메트릭 테스트를. 그런 다음 결과를 비교할 수 있습니다.
정말 야심이 있다면 순열 테스트를 수행 할 수도 있습니다.
앨런 튜링이 로널드 피셔가 그의 일을하기 전에 그의 일을했다면? :-).
@PeterFlom은 그의 첫 문장으로 못 살았다.
내가 본 연구에 대한 대략적인 요약을 제공하려고 노력할 것입니다 (링크를 원한다면 시간이 걸릴 수 있습니다).
전반적으로, 두 표본 t- 검정은 대칭 비정규성에 대해 상당히 강력합니다 (실제 I- 오류율은 첨도에 의해 다소 영향을 받고, 대부분 그 영향을받습니다).
두 샘플이 같은 방향으로 약간 기울어지면 단측 t- 검정은 더 이상 편향되지 않습니다. t- 통계량은 분포와 반대로 왜곡되며 검정이 다른쪽에있는 것보다 한 방향에있는 경우 더 많은 검정력을 갖습니다. 반대 방향으로 치우치면 제 1 종 오류율이 크게 영향을받을 수 있습니다.
큰 왜도는 더 큰 영향을 줄 수 있지만 일반적으로 양측 테스트를 통한 적당한 왜도 는 본질적으로 테스트의 힘을 한 방향으로 다른 방향으로 할당하는 데 신경 쓰지 않아도 나쁘지 않습니다.
요컨대, 양측, 2- 표본 t- 검정은 유의 수준과 약간의 편견에 대한 영향을 견딜 수 있다면 그러한 종류의 것들에 합리적으로 강력합니다.
그러나 배포가 비정규가되는 방법은 많지만 그 방법은 해당 주석에서 다루지 않습니다.
@PeterFlom은 시뮬레이션 연구가 모든 시나리오와 가능성을 다룰 수는 없으므로 명확한 답변을 얻을 수는 없다고 이미 언급했습니다. 그러나 여전히 일부 시뮬레이션을 수행하여 이와 같은 문제를 실제로 탐색하는 것이 여전히 유용하다는 것을 알았습니다 (몬테카를로 시뮬레이션 연구의 아이디어를 학생들에게 소개 할 때 사용하는 운동의 유형이기도합니다). 실제로 시도해 봅시다. 이것을 위해 R을 사용할 것입니다.
코드
n1 <- 33
n2 <- 45
mu1 <- 0
mu2 <- 0
sd1 <- 1
sd2 <- 1
iters <- 100000
p1 <- p2 <- p3 <- p4 <- p5 <- rep(NA, iters)
for (i in 1:iters) {
### normal distributions
x1 <- rnorm(n1, mu1, sd1)
x2 <- rnorm(n2, mu2, sd2)
p1[i] <- t.test(x1, x2)$p.value
### both variables skewed to the right
x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
p2[i] <- t.test(x1, x2)$p.value
### both variables skewed to the left
x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
p3[i] <- t.test(x1, x2)$p.value
### first skewed to the left, second skewed to the right
x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
p4[i] <- t.test(x1, x2)$p.value
### first skewed to the right, second skewed to the left
x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
p5[i] <- t.test(x1, x2)$p.value
}
print(round((apply(cbind(p1, p2, p3, p4, p5), 2, function(p) mean(p <= .05))), 3))
설명
먼저 그룹 크기 ( n1
및 n2
), 실제 그룹 평균 ( mu1
및 mu2
) 및 실제 표준 편차 ( sd1
및 sd2
)를 설정합니다.
그런 다음, 실행할 반복 횟수를 정의하고 p- 값을 저장할 벡터를 설정합니다.
그런 다음 5 가지 시나리오에서 데이터를 시뮬레이션합니다.
기울어 진 분포를 생성하기 위해 카이 제곱 분포를 사용하고 있습니다. 자유도가 어느 정도이면 분포가 크게 왜곡됩니다. 자유도가 1 인 카이 제곱 분포의 실제 평균과 분산이 각각 1과 2와 같기 때문에 ( wikipedia 참조 ) 먼저 분포를 평균 0과 표준 편차 1로 재조정 한 다음 재조정하여 원하는 실제 평균 및 표준 편차 (한 단계로 수행 할 수 있지만이 방법으로 수행하는 것이 더 명확 할 수 있음)
각각의 경우에, 나는 t- 검정 (Welch 's version-두 그룹에서 동일한 분산을 가정하는 Student 's version도 고려할 수 있음)을 적용하고 p- 값을 이전에 설정된 벡터에 저장합니다.
마지막으로 모든 반복이 완료되면 각 벡터에 대해 p- 값이 .05 이하인 빈도를 계산합니다 (즉, 테스트는 "중요"). 이것은 경험적 거부율입니다.
일부 결과
위에서 설명한대로 정확하게 시뮬레이션하면 다음과 같은 결과가 나타납니다.
p1 p2 p3 p4 p5
0.049 0.048 0.047 0.070 0.070
따라서 왜도가 두 그룹에서 같은 방향에있을 때, 제 1 종 오류율은 잘 제어되는 것에 매우 가깝습니다 (즉, 공칭 매우 가깝습니다 ). 왜도가 반대 방향 인 경우, 제 1 종 오류율에 약간의 인플레이션이 있습니다.
코드를로 변경하면 mu1 <- .5
다음과 같은 결과가 나타납니다.
p1 p2 p3 p4 p5
0.574 0.610 0.606 0.592 0.602
따라서 두 분포가 모두 정상인 경우 (테스트에서 가정 한 경우)와 비교할 때 왜도가 같은 방향 일 때 검정력이 실제로 약간 더 높습니다 . 이것에 놀랐다면, 몇 번 (물론 약간 씩 다른 결과가 나올 때마다) 다시 실행하고 싶을 수도 있지만 패턴은 유지됩니다.
제 1 종 오류율이 명 목적이지 않기 때문에 왜도가 반대 방향 인 두 가지 시나리오에서 경험적 검정력 값을 해석하는 데주의해야합니다. 나는 항상 최대의 힘으로 테스트 할 것이지만 물론 테스트는 다소 팽창 된 Type I 오류율을 가지고 있습니다).
하나는 값의 범위를 탐험 시작할 수 mu1
(와 mu2
-하지만 정말 중요한 것은 둘 사이의 차이) 및, 더 중요한 것은, 두 그룹의 진정한 표준 편차를 변경 시작 (즉, sd1
과 sd2
) 특히 그들에게 불평등하게. 또한 OP에서 언급 한 샘플 크기를 고수했지만 물론 조정할 수도 있습니다. 그리고 왜도는 자유도가 1 인 카이 제곱 분포에서 보는 것보다 많은 다른 형태를 취할 수 있습니다. 나는 여전히 명확한 답을 얻을 수 없다는 사실에도 불구하고 이런 식으로 접근하는 것이 유용하다고 생각합니다.
귀하의 상황에서 t- 검정은 제 1 종 오류율에 대해서는 견고하지만 제 2 종 오류율에는 영향을 미치지 않습니다. a) Kruskal-Wallis 테스트 또는 b) t- 테스트 이전의 정규화 변환을 통해 더 많은 전력을 얻을 수 있습니다.
나는이 결론을 두 개의 몬테카를로 연구에 근거하고 있습니다. 첫 번째 ( Khan & Rayner, 2003 ), g-k 분포 패밀리의 매개 변수를 통해 스큐 및 첨도를 간접적으로 조작하고 결과 전력을 조사했습니다. 중요하게도 Kruskal-Wallis 검정의 검정력은 비정규 성, 특히 n> = 15에서 덜 손상되었습니다.
이 연구에 대한 몇 가지 경고 / 자격 : 전원은 종종 높은 첨도에 의해 손상을 입었지만 왜곡으로 인한 영향은 적습니다. 언뜻보기 에이 패턴은 첨도가 아닌 비뚤어 짐에 문제가 있음을 감안할 때 상황과 관련이 덜 보일 수 있습니다. 그러나 귀하의 경우 과도한 첨도도 극단적이라고 내기하고 있습니다. 초과 첨도는 최소한 skew ^ 2-2만큼 높을 것입니다. 2003)은 3 개의 그룹을 가진 ANOVA를 조사했지만, 그 결과는 2- 표본 t- 검정으로 일반화 될 것으로 보인다.
두 번째 관련 연구 ( Beasley, Erikson, & Allison, 2009)는 Chi-squared (1) 및 Weibull (1, .5)와 같은 다양한 비정규 분포에서 유형 I 및 유형 II 오류를 모두 조사했습니다. 표본 크기가 25 이상인 경우 t- 검정은 공칭 알파 수준 이하에서 제 1 종 오류율을 적절하게 제어했습니다. 그러나 Kruskal-Wallis 검정 또는 t 검정 이전에 적용한 순위 기반 역 정규 변환 (Blom score)에서 검정력이 가장 높았습니다. Beasley와 동료들은 일반적으로 정규화 접근법에 대해 논쟁했지만, 정규화 접근법은 n> = 25의 제 1 종 오류율을 제어했으며, 그 힘은 때때로 Kruskal-Wallis 검정보다 약간 높았다. 즉, 정규화 접근법은 귀하의 상황에 유망한 것으로 보입니다. 자세한 내용은 기사의 표 1과 4를 참조하십시오.
참고 문헌 :
Khan, A., & Rayner, GD (2003) . 많은 샘플 위치 문제에 대한 일반적인 테스트의 비정규성에 대한 견고성. 응용 수학 및 결정 과학 저널, 7 , 187-206.
Beasley, TM, Erickson, S., & Allison, DB (2009) . 순위 기반 역 정규 변환이 점점 더 많이 사용되고 있지만 장점이 있습니까? 행동 유전학, 39 , 580-595.
우선, 두 표본의 분포가 다르다고 가정하면 Welch의 t- 검정 버전의 t- 검정을 사용하여 그룹 간의 불균형을 가정하십시오. 이것은 최소한 분포로 인해 발생하는 몇 가지 차이점을 설명하려고 시도합니다.
Welch의 t- 검정 공식을 보면 :
여기서 는
우리는 s 가 있을 때마다 분산이 고려되고 있음을 알 수 있습니다. 두 분산이 실제로 동일하지만 하나가 기울어 져서 다른 분산 추정치가 발생한다고 가정 해 봅시다. 이 차이의 추정치가 실제로 왜곡으로 인해 데이터를 나타내지 않는 경우 실제 바이어스 효과는 본질적으로 해당 바이어스의 제곱근을 해당 바이어스를 계산하는 데 사용 된 데이터 포인트 수로 나눈 값입니다. 따라서 분산의 나쁜 추정값의 효과는 제곱근과 더 높은 n에 의해 약간 머플 링되며, 이는 아마도 강력한 테스트로 남아있는 합의의 이유 일 것입니다.
치우친 분포의 다른 문제는 평균 계산에도 영향을 미치며, 이는 평균이 상대적으로 치우 치기 때문에 테스트 가정 위반의 실제 문제가있는 곳일 수 있습니다. 그리고 테스트의 견고성은 평균의 차이 (아이디어)와 비교하여 평균의 차이를 계산함으로써 대략적으로 결정될 수 있습니다. 아마도 t- 테스트에서 중간 값의 차이로 수단의 차이를보다 강력한 척도로 대체하려고 시도 할 수도 있습니다 (누군가 이것을 논의했지만 Google에서 링크 할 정도로 빨리 무언가를 찾을 수는 없었습니다).
또한 t- 테스트 만 수행하면 순열 테스트를 실행하는 것이 좋습니다. 순열 검정은 분포 가정에 관계없이 정확한 검정입니다. 가장 중요한 것은 매개 변수 검정의 가정이 충족 되면 순열 검정과 t- 검정은 동일한 결과로 이어질 것 입니다. 따라서 원하는 견고성 측정은 1-순열과 t- 검정 p- 값의 차이가 될 수 있습니다. 여기서 1의 점수는 완벽한 견고 함을 나타내며 0은 전혀 견고하지 않습니다.