독립 t- 검정을 사용하여 정규 분포가 아닌 A / B 테스트 결과 분석


13

정규 분포에 맞지 않는 A / B 테스트 (제어 그룹 1 개, 기능 그룹 1 개)의 결과 집합이 있습니다. 실제로이 배포판은 Landau 배포판과 더 비슷합니다.

독립 t- 검정은 표본이 최소한 정규 분포를 that어야하므로 t- 검정을 유효한 유의성 검정 방법으로 사용하지 못하게합니다.

그러나 내 질문은 : 어떤 시점에서 t- 검정이 유의성 검정의 좋은 방법이 아니라고 말할 수 있습니까?

또는 다른 방법으로, 데이터 세트 만 주어지면 t- 검정의 p- 값이 얼마나 신뢰할 수 있는지를 어떻게 검증 할 수 있습니까?

답변:


8

데이터 분포는 정상일 필요는 없습니다. 샘플링 분포 는 거의 정상이어야합니다. 표본 크기가 충분히 클 경우, 중앙 한계 정리 로 인해 Landau Distribution의 평균 표본 분포가 거의 정상이어야합니다 .

따라서 데이터와 함께 t-test를 안전하게 사용할 수 있어야합니다.

이 예를 고려해 봅시다 : mu = 0 및 sd = 0.5 인 Lognormal 분포를 가진 모집단이 있다고 가정 합니다 (Landau와 약간 비슷 함).

대수 밀도

따라서 표본의 평균을 계산할 때마다이 분포에서 5000 번의 관측 값을 5000 번 샘플링합니다.

그리고 이것이 우리가 얻는 것입니다

샘플링 분포

꽤 평범 해 보이죠? 표본 크기를 늘리면 더 분명해집니다

샘플링 분포

R 코드

x = seq(0, 4, 0.05)
y = dlnorm(x, mean=0, sd=0.5)
plot(x, y, type='l', bty='n')


n = 30
m = 1000

set.seed(0)
samp = rep(NA, m)

for (i in 1:m) {
  samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}

hist(samp, col='orange', probability=T, breaks=25, main='sample size = 30')
x = seq(0.5, 1.5, 0.01)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))


n = 300
samp = rep(NA, m)

for (i in 1:m) {
  samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}

hist(samp, col='orange', probability=T, breaks=25, main='sample size = 300')
x = seq(1, 1.25, 0.005)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))

안녕하세요, 알렉세이! R에 능숙한 것 같습니다 . 현재 붙어있는 문제에 대한 조언이 있으면 stackoverflow.com/questions/25101444/… 그 외에도, 우리가 공통 관심사 (모국어 :-)를 가지고있는 것처럼 보이기 때문에 당신과 연락하게되어 기쁩니다 (전문 소셜 네트워크에서 내 프로필은 aleksandrblekh.com 참조).
Aleksandr Blekh

이것은 훌륭한 설명이며, 실제로 내가 사용한 방법입니다. 이 방법을 전체 샘플 세트를 더 작은 서브 샘플로 나누고 각 서브 샘플의 평균 (CLT 평균)을 데이터 세트의 분포로 사용하는 것으로 생각합니다. 답변 해주셔서 감사합니다!
teebszet

1

기본적으로 독립 t- 검정 또는 2 샘플 t- 검정을 사용하여 두 샘플의 평균이 유의하게 다른지 확인합니다. 또는 두 샘플의 평균간에 유의 한 차이가있는 경우 다시 말하면됩니다.

이제이 두 표본의 평균은 두 개의 통계이며, CLT에 따르면 충분한 표본이 제공되면 정규 분포를 갖습니다. CLT는 평균 통계가 생성 된 분포에 관계없이 작동합니다.

일반적으로 z- 검정을 사용할 수 있지만 표본에서 분산을 추정하면 (알 수 없기 때문에) 불확실성이 추가되어 t 분포에 포함됩니다. 이것이 2- 표본 t- 검정이 여기에 적용되는 이유입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.