표본 분포가 비정규 일 때 독립 표본 t- 검정은 얼마나 강력합니까?

24

샘플 분포가 정규성을 벗어날 때 t- 검정 이 "합리적으로 강력" 하다는 것을 읽었습니다 . 물론 중요한 차이의 샘플링 분포입니다. 두 그룹에 대한 데이터가 있습니다. 그룹 중 하나가 종속 변수에 치우쳐 있습니다. 표본 크기는 두 그룹 모두에 대해 상당히 작습니다 (하나는 n = 33, 다른 하나는 45). 이러한 조건에서 내 t- 검정 이 정규성 가정 위반에 강력 할 것이라고 가정해야합니까?

— 시조새
소스

3

"물론 중요한 차이의 샘플링 분포"-차이점은 무엇입니까? 나는 미래의 독자들에게 (그리고 요점에 접하는) 오해를 불러 일으키기 때문에 질문에서 이것을 편집하려고 유혹했다. 내 생각은 쌍의 t- 검정에 대한 잘못된 참조라고 생각했는데 , 쌍 간의 차이가 정상이라고 가정하지만 독립 샘플 테스트에는 적용되지 않습니다. 우리는 심지어 짝을 이루지 못합니다! 아마도 "수단의 차이"가 의도 된 것입니까? 나머지 Q는 차이가 아닌 두 샘플의 정규성을 고려합니다.

— 실버 피쉬

이러한 위반에 대한 t- 검정 이 얼마나 강력한 지에 대한 질문은 중요하고 합법적 인 것입니다. 그러나 관련 문제는 먼저 데이터 위반을 확인한 다음 t 테스트 또는 대체 테스트 를 적용할지 여부를 결정 하지 않는 것입니다. 이러한 다단계 절차는 작동 특성이 불확실합니다. 이 글 참고 : 작은 테스트에서 Wilcoxon과 같은 t 테스트 또는 비모수 적 선택을위한 원칙적 방법

— Silverfish

믿을만한 출처는 무엇입니까? (우리는 공식 소스와 같은 것이 없다는 것에 동의합니다). 우리는 견고성 또는 힘을보고 있습니까? 그리고 만약 '또한 힘'이라면 ... 우리는 어떤 대안을 이야기하고 있습니까?

— Glen_b-복지 모니카

@Glen_b 죄송합니다. "공식 출처"현상금 메시지는 StackOverflow에 분명합니다. 나는이 스레드가 약간의 인용을 가치있게하는 데 실제로 중요합니다 (Wikipedia에서 상당히 높은 트래픽 및 가난한 사람). "정식 답변"현상금 템플릿은 Peter Flom의 답변이 명확하게 보여 주므로 부적절합니다. 이 주제에 대해 "공통 지식"이 있다는 느낌이 들었습니다.이 Q를 직접 물어 보면 내 목록은 Dallal 과 비슷합니다 (첨도를 추가했지만 동일한 샘플 크기를 사용하지는 않았습니다) 일반 비정규 대 보호)

— Silverfish

@Glen_b 당신의 대답은 유사한 정맥을 채굴하므로 널리 알려진 / 수용되는 몇 가지 기본 사항이있는 것 같습니다. 내 학위는 가정을 다루었지만 위반의 결과는 아닙니다. 내 지식은 다양한 출처, 비트 및 밥에서 나왔습니다 ( "심리학자 통계"유형 서적은 많은 통계 이론 텍스트보다 결과에 더 많은주의를 기울일 수 있습니다)-그렇지 않으면 게시했습니다 현상금이 아닌 답변! 좋은 교과서에서 괜찮은 한 페이지 요약을 알고 있다면 괜찮습니다. 시뮬레이션 결과를 가진 두 장의 논문이라면 괜찮습니다. 미래 독자들이 언급하고 인용 할 수있는 모든 것.

— Silverfish

16

견고성에 대한 질문은 대답하기가 매우 어렵습니다. 가정은 여러 가지 방식으로, 각기 다른 방식으로 위반 될 수 있기 때문입니다. 시뮬레이션 작업은 가능한 위반의 아주 작은 부분 만 샘플링 할 수 있습니다.

컴퓨팅의 상태를 감안할 때, 나는 종종 실행할 수있는 시간을 가치라고 생각합니다 모두 모두 사용할 수있는 경우, 파라 메트릭 및 비 - 파라 메트릭 테스트를. 그런 다음 결과를 비교할 수 있습니다.

정말 야심이 있다면 순열 테스트를 수행 할 수도 있습니다.

앨런 튜링이 로널드 피셔가 그의 일을하기 전에 그의 일을했다면? :-).

— 피터 플 로움-모니카 복원
소스

1

피터, 그 질문에 정확하게 답하기 위해 역사적 소설을 쓰도록 영감을 주셨습니다.

— Sycorax는 Reinstate Monica가

12

@PeterFlom은 그의 첫 문장으로 못 살았다.

내가 본 연구에 대한 대략적인 요약을 제공하려고 노력할 것입니다 (링크를 원한다면 시간이 걸릴 수 있습니다).

전반적으로, 두 표본 t- 검정은 대칭 비정규성에 대해 상당히 강력합니다 (실제 I- 오류율은 첨도에 의해 다소 영향을 받고, 대부분 그 영향을받습니다).

두 샘플이 같은 방향으로 약간 기울어지면 단측 t- 검정은 더 이상 편향되지 않습니다. t- 통계량은 분포와 반대로 왜곡되며 검정이 다른쪽에있는 것보다 한 방향에있는 경우 더 많은 검정력을 갖습니다. 반대 방향으로 치우치면 제 1 종 오류율이 크게 영향을받을 수 있습니다.

큰 왜도는 더 큰 영향을 줄 수 있지만 일반적으로 양측 테스트를 통한 적당한 왜도 는 본질적으로 테스트의 힘을 한 방향으로 다른 방향으로 할당하는 데 신경 쓰지 않아도 나쁘지 않습니다.

요컨대, 양측, 2- 표본 t- 검정은 유의 수준과 약간의 편견에 대한 영향을 견딜 수 있다면 그러한 종류의 것들에 합리적으로 강력합니다.

그러나 배포가 비정규가되는 방법은 많지만 그 방법은 해당 주석에서 다루지 않습니다.

— Glen_b-복귀 모니카
소스

나는 그것이 힘이 견고하다고 말하는 것이 옳지 않다! 합리적 수준의 견고성, 유의성 수준은 대략 정확하지만, 예를 들어 윌 콕슨 검정은 합리성에 가까운 대안이 탐지하기 어려울 경우 훨씬 더 높은 검정력을 가질 수 있습니다. 이는 각 그룹에 동일한 수의 관측 값이 있는지와 같은 요소에 따라 달라집니다. n이 아닌 경우 견고성이 훨씬 더 취약합니다!

— kjetil b halvorsen

1

@kjetilbhalvorsen 내가 본 연구-내가 한 일부 시뮬레이션을 포함하여 (그리고 내가 한 동안 아무것도 보지 못했지만, 내가 보지 못한 것을 보았을 수도 있음), 권력에 미치는 영향의 대부분은 보였다 대부분 레벨을 올리거나 내리는 것입니다 (Wilcoxon에 영향을 미치지 않음). 이러한 상황에서 (특히 두꺼운 꼬리를 가진) Wilcoxon의 일반적으로 우수한 전력 특성을 감안할 때, Wilcoxon이 전력에서 승리하기에 충분합니다. 했다.

— Glen_b-복지 주 모니카

7

@PeterFlom은 시뮬레이션 연구가 모든 시나리오와 가능성을 다룰 수는 없으므로 명확한 답변을 얻을 수는 없다고 이미 언급했습니다. 그러나 여전히 일부 시뮬레이션을 수행하여 이와 같은 문제를 실제로 탐색하는 것이 여전히 유용하다는 것을 알았습니다 (몬테카를로 시뮬레이션 연구의 아이디어를 학생들에게 소개 할 때 사용하는 운동의 유형이기도합니다). 실제로 시도해 봅시다. 이것을 위해 R을 사용할 것입니다.

코드

n1 <- 33
n2 <- 45
mu1 <- 0
mu2 <- 0
sd1 <- 1
sd2 <- 1

iters <- 100000
p1 <- p2 <- p3 <- p4 <- p5 <- rep(NA, iters)

for (i in 1:iters) {

   ### normal distributions
   x1 <- rnorm(n1, mu1, sd1)
   x2 <- rnorm(n2, mu2, sd2)
   p1[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the right
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p2[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the left
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p3[i] <- t.test(x1, x2)$p.value

   ### first skewed to the left, second skewed to the right
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2)      * sd2 + mu2
   p4[i] <- t.test(x1, x2)$p.value

   ### first skewed to the right, second skewed to the left
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2)      * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p5[i] <- t.test(x1, x2)$p.value

}

print(round((apply(cbind(p1, p2, p3, p4, p5), 2, function(p) mean(p <= .05))), 3))

설명

먼저 그룹 크기 ( n1및 n2), 실제 그룹 평균 ( mu1및 mu2) 및 실제 표준 편차 ( sd1및 sd2)를 설정합니다.
그런 다음, 실행할 반복 횟수를 정의하고 p- 값을 저장할 벡터를 설정합니다.
그런 다음 5 가지 시나리오에서 데이터를 시뮬레이션합니다.
1. 두 분포 모두 정상입니다.
2. 두 분포가 오른쪽으로 치우쳐 있습니다.
3. 두 분포가 왼쪽으로 치우쳐 있습니다.
4. 첫 번째 분포는 왼쪽으로 치우치고 두 번째 분포는 오른쪽으로 치우칩니다.
5. 첫 번째 분포는 오른쪽으로 치우치고 두 번째 분포는 왼쪽으로 치우칩니다.
기울어 진 분포를 생성하기 위해 카이 제곱 분포를 사용하고 있습니다. 자유도가 어느 정도이면 분포가 크게 왜곡됩니다. 자유도가 1 인 카이 제곱 분포의 실제 평균과 분산이 각각 1과 2와 같기 때문에 ( wikipedia 참조 ) 먼저 분포를 평균 0과 표준 편차 1로 재조정 한 다음 재조정하여 원하는 실제 평균 및 표준 편차 (한 단계로 수행 할 수 있지만이 방법으로 수행하는 것이 더 명확 할 수 있음)
각각의 경우에, 나는 t- 검정 (Welch 's version-두 그룹에서 동일한 분산을 가정하는 Student 's version도 고려할 수 있음)을 적용하고 p- 값을 이전에 설정된 벡터에 저장합니다.
마지막으로 모든 반복이 완료되면 각 벡터에 대해 p- 값이 .05 이하인 빈도를 계산합니다 (즉, 테스트는 "중요"). 이것은 경험적 거부율입니다.

일부 결과

위에서 설명한대로 정확하게 시뮬레이션하면 다음과 같은 결과가 나타납니다.
```
   p1    p2    p3    p4    p5 
0.049 0.048 0.047 0.070 0.070
```
따라서 왜도가 두 그룹에서 같은 방향에있을 때, 제 1 종 오류율은 잘 제어되는 것에 매우 가깝습니다 (즉, 공칭 매우 가깝습니다 ). 왜도가 반대 방향 인 경우, 제 1 종 오류율에 약간의 인플레이션이 있습니다. $\alpha = .05$
코드를로 변경하면 mu1 <- .5다음과 같은 결과가 나타납니다.
```
   p1    p2    p3    p4    p5 
0.574 0.610 0.606 0.592 0.602
```
따라서 두 분포가 모두 정상인 경우 (테스트에서 가정 한 경우)와 비교할 때 왜도가 같은 방향 일 때 검정력이 실제로 약간 더 높습니다 . 이것에 놀랐다면, 몇 번 (물론 약간 씩 다른 결과가 나올 때마다) 다시 실행하고 싶을 수도 있지만 패턴은 유지됩니다.

제 1 종 오류율이 명 목적이지 않기 때문에 왜도가 반대 방향 인 두 가지 시나리오에서 경험적 검정력 값을 해석하는 데주의해야합니다. 나는 항상 최대의 힘으로 테스트 할 것이지만 물론 테스트는 다소 팽창 된 Type I 오류율을 가지고 있습니다).

하나는 값의 범위를 탐험 시작할 수 mu1(와 mu2-하지만 정말 중요한 것은 둘 사이의 차이) 및, 더 중요한 것은, 두 그룹의 진정한 표준 편차를 변경 시작 (즉, sd1과 sd2) 특히 그들에게 불평등하게. 또한 OP에서 언급 한 샘플 크기를 고수했지만 물론 조정할 수도 있습니다. 그리고 왜도는 자유도가 1 인 카이 제곱 분포에서 보는 것보다 많은 다른 형태를 취할 수 있습니다. 나는 여전히 명확한 답을 얻을 수 없다는 사실에도 불구하고 이런 식으로 접근하는 것이 유용하다고 생각합니다.

— 볼프강
소스

2

오늘날 우리는 강력한 반모 수적 방법을 가지고 있기 때문에 왜이 논의가 그렇게 가치 있는가?

— Frank Harrell

(+1) 한 표본이 치우친 모집단에서 추출되고 다른 표본은 그렇지 않은 경우를 포함하여 가치가 있다고 생각합니다. 이는 OP 생각이 데이터에 발생할 수 있기 때문입니다. 그러나 명시 적 코드로 답변을 보는 것이 좋습니다. (약간의 일반화를 통해 독자는 기존의 t- 검정과 비교하여 얼마나 강력한 방법을 조사 할 수 있으며, 가정에 위배되는 시험을 적용하는 위험을 누군가에게 가르치려고 할 때 유용한 교육 운동입니다 .. .)

— Silverfish

2

귀하의 상황에서 t- 검정은 제 1 종 오류율에 대해서는 견고하지만 제 2 종 오류율에는 영향을 미치지 않습니다. a) Kruskal-Wallis 테스트 또는 b) t- 테스트 이전의 정규화 변환을 통해 더 많은 전력을 얻을 수 있습니다.

나는이 결론을 두 개의 몬테카를로 연구에 근거하고 있습니다. 첫 번째 ( Khan & Rayner, 2003 ), g-k 분포 패밀리의 매개 변수를 통해 스큐 및 첨도를 간접적으로 조작하고 결과 전력을 조사했습니다. 중요하게도 Kruskal-Wallis 검정의 검정력은 비정규 성, 특히 n> = 15에서 덜 손상되었습니다.

이 연구에 대한 몇 가지 경고 / 자격 : 전원은 종종 높은 첨도에 의해 손상을 입었지만 왜곡으로 인한 영향은 적습니다. 언뜻보기 에이 패턴은 첨도가 아닌 비뚤어 짐에 문제가 있음을 감안할 때 상황과 관련이 덜 보일 수 있습니다. 그러나 귀하의 경우 과도한 첨도도 극단적이라고 내기하고 있습니다. 초과 첨도는 최소한 skew ^ 2-2만큼 높을 것입니다. 2003)은 3 개의 그룹을 가진 ANOVA를 조사했지만, 그 결과는 2- 표본 t- 검정으로 일반화 될 것으로 보인다.

두 번째 관련 연구 ( Beasley, Erikson, & Allison, 2009)는 Chi-squared (1) 및 Weibull (1, .5)와 같은 다양한 비정규 분포에서 유형 I 및 유형 II 오류를 모두 조사했습니다. 표본 크기가 25 이상인 경우 t- 검정은 공칭 알파 수준 이하에서 제 1 종 오류율을 적절하게 제어했습니다. 그러나 Kruskal-Wallis 검정 또는 t 검정 이전에 적용한 순위 기반 역 정규 변환 (Blom score)에서 검정력이 가장 높았습니다. Beasley와 동료들은 일반적으로 정규화 접근법에 대해 논쟁했지만, 정규화 접근법은 n> = 25의 제 1 종 오류율을 제어했으며, 그 힘은 때때로 Kruskal-Wallis 검정보다 약간 높았다. 즉, 정규화 접근법은 귀하의 상황에 유망한 것으로 보입니다. 자세한 내용은 기사의 표 1과 4를 참조하십시오.

참고 문헌 :

Khan, A., & Rayner, GD (2003) . 많은 샘플 위치 문제에 대한 일반적인 테스트의 비정규성에 대한 견고성. 응용 수학 및 결정 과학 저널, 7 , 187-206.

Beasley, TM, Erickson, S., & Allison, DB (2009) . 순위 기반 역 정규 변환이 점점 더 많이 사용되고 있지만 장점이 있습니까? 행동 유전학, 39 , 580-595.

— 앤서니
소스

(excess) kurtosis \geq {skew}^{2} - 2

$\text{(excess) kurtosis} \geq \text{skew}^2 -2$ 는 모집단에 해당합니다. 표본의 추정치에 대해서도 사실입니까?

— Silverfish

그것은 자체 스레드에 해당하는 질문처럼 보입니다. 아마도 작은 샘플에서 과도한 첨도가 아래쪽으로 치우치게 될 것입니까? 물론, 위의 시뮬레이션 연구에서도 마찬가지였으며, 이러한 상황에서 첨도는 여전히 t- 검정에서 저전력을 유발했습니다. 귀하의 질문은 대부분의 Monte Carlo 연구의보다 일반적인 한계를 지적합니다. 결론은 종종 적용되는 연구원이 관찰 할 수없는 인구 특성, 특성에 근거합니다. 표본 비대칭, 첨도 등을 기반으로 상대 검정력을 예측하는 것이 더 유용합니다.

— Anthony

이 문제에 대한 별도의 질문을 게시했습니다 : stats.stackexchange.com/questions/133247/…

— Anthony

0

우선, 두 표본의 분포가 다르다고 가정하면 Welch의 t- 검정 버전의 t- 검정을 사용하여 그룹 간의 불균형을 가정하십시오. 이것은 최소한 분포로 인해 발생하는 몇 가지 차이점을 설명하려고 시도합니다.

Welch의 t- 검정 공식을 보면 :

t = \frac{{\bar{X}}_{1} - {\bar{X}}_{2}}{s_{{\bar{X}}_{1} - {\bar{X}}_{2}}}

$t = {\overline{X}_1 - \overline{X}_2 \over s_{\overline{X}_1 - \overline{X}_2}}$

여기서 는 $s_{\overline{X}_1 - \overline{X}_2}$

s_{{\bar{X}}_{1} - {\bar{X}}_{2}} = \sqrt{\frac{s_{1}^{2}}{n_{1}} + \frac{s_{2}^{2}}{n_{2}}}

$s_{\overline{X}_1 - \overline{X}_2} = \sqrt{{s_1^2 \over n_1} + {s_2^2 \over n_2}}$

우리는 s 가 있을 때마다 분산이 고려되고 있음을 알 수 있습니다. 두 분산이 실제로 동일하지만 하나가 기울어 져서 다른 분산 추정치가 발생한다고 가정 해 봅시다. 이 차이의 추정치가 실제로 왜곡으로 인해 데이터를 나타내지 않는 경우 실제 바이어스 효과는 본질적으로 해당 바이어스의 제곱근을 해당 바이어스를 계산하는 데 사용 된 데이터 포인트 수로 나눈 값입니다. 따라서 분산의 나쁜 추정값의 효과는 제곱근과 더 높은 n에 의해 약간 머플 링되며, 이는 아마도 강력한 테스트로 남아있는 합의의 이유 일 것입니다.

치우친 분포의 다른 문제는 평균 계산에도 영향을 미치며, 이는 평균이 상대적으로 치우 치기 때문에 테스트 가정 위반의 실제 문제가있는 곳일 수 있습니다. 그리고 테스트의 견고성은 평균의 차이 (아이디어)와 비교하여 평균의 차이를 계산함으로써 대략적으로 결정될 수 있습니다. 아마도 t- 테스트에서 중간 값의 차이로 수단의 차이를보다 강력한 척도로 대체하려고 시도 할 수도 있습니다 (누군가 이것을 논의했지만 Google에서 링크 할 정도로 빨리 무언가를 찾을 수는 없었습니다).

또한 t- 테스트 만 수행하면 순열 테스트를 실행하는 것이 좋습니다. 순열 검정은 분포 가정에 관계없이 정확한 검정입니다. 가장 중요한 것은 매개 변수 검정의 가정이 충족 되면 순열 검정과 t- 검정은 동일한 결과로 이어질 것 입니다. 따라서 원하는 견고성 측정은 1-순열과 t- 검정 p- 값의 차이가 될 수 있습니다. 여기서 1의 점수는 완벽한 견고 함을 나타내며 0은 전혀 견고하지 않습니다.

— 멘센
소스