간단한 A / B 테스트를 처리 할 때 특정 테스트 방식을 선택하여 추론을 이해하려고합니다 (예 : 이진 응답이있는 두 가지 변형 / 그룹 (변환 여부)) 예를 들어 아래 데이터를 사용합니다.
Version Visits Conversions
A 2069 188
B 1826 220
최고 응답 여기가 대단한 및 z, t 및 카이 제곱 테스트에 대한 기본 가정 중 일부에 대해 이야기. 그러나 내가 혼란스럽게 생각하는 것은 다른 온라인 리소스가 다른 접근 방식을 인용한다는 것입니다. 기본 A / B 테스트에 대한 가정은 거의 동일해야한다고 생각하십니까?
- 본 논문 은 t 테스트 (p 152)를 참조한다 :
그렇다면 이러한 다른 접근 방식에 찬성하여 어떤 주장을 할 수 있습니까? 선호하는 이유는 무엇입니까?
하나 이상의 후보를 던지기 위해 위의 표를 2x2 우연의 표로 다시 작성할 수 있으며 Fisher의 정확한 검정 (p5)을 사용할 수 있습니다.
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
그러나이 스레드 에 따르면 피셔의 정확한 테스트는 더 작은 샘플 크기에서만 사용해야합니다 (잘라낸 부분은 무엇입니까?)
그리고 t와 z 테스트, f 테스트 (및 로지스틱 회귀, 그러나 지금은 그만두고 싶습니다)가 쌍을 이루고 있습니다 .... 나는 다른 테스트 접근법에서 익사하는 느낌이 들었습니다. 이 간단한 A / B 테스트 사례에서 여러 가지 방법에 대해 일종의 논쟁을 펼치십시오.
예제 데이터를 사용하여 다음 p- 값을 얻습니다.
https://vwo.com/ab-split-test-significance-calculator/ p 값 0.001 (z 점수)을 제공합니다
http://www.evanmiller.org/ab-testing/chi-squared.html (카이 제곱 테스트 사용)은 p- 값이 0.00259입니다.
그리고 R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
에서 0.002785305의 p- 값을 제공합니다
어느 것이나 아주 가까운 것 같아요 ...
어쨌든-표본 크기가 일반적으로 수천이고 응답 비율이 종종 10 % 이하인 온라인 테스트에서 어떤 접근법을 사용해야하는지에 대한 건전한 토론을 원합니다. 내 직감은 나에게 카이-제곱을 사용하라고 말하고 있지만 왜 내가 그것을 다른 여러 가지 방법으로 선택하는지 정확하게 대답하고 싶다.