A / B 테스트 : Z- 테스트 vs T- 테스트 vs 카이 제곱 vs 피셔 정확한 테스트


38

간단한 A / B 테스트를 처리 할 때 특정 테스트 방식을 선택하여 추론을 이해하려고합니다 (예 : 이진 응답이있는 두 가지 변형 / 그룹 (변환 여부)) 예를 들어 아래 데이터를 사용합니다.

Version  Visits  Conversions
A        2069     188
B        1826     220

최고 응답 여기가 대단한 및 z, t 및 카이 제곱 테스트에 대한 기본 가정 중 일부에 대해 이야기. 그러나 내가 혼란스럽게 생각하는 것은 다른 온라인 리소스가 다른 접근 방식을 인용한다는 것입니다. 기본 A / B 테스트에 대한 가정은 거의 동일해야한다고 생각하십니까?

  1. 예를 들어이 기사에서는 z-score를 사용합니다 .여기에 이미지 설명을 입력하십시오
  2. 이 기사 에서는 다음 공식을 사용합니다 (zscore 계산과 다른지 확실하지 않은 경우).

여기에 이미지 설명을 입력하십시오

  1. 본 논문 은 t 테스트 (p 152)를 참조한다 :

여기에 이미지 설명을 입력하십시오

그렇다면 이러한 다른 접근 방식에 찬성하여 어떤 주장을 할 수 있습니까? 선호하는 이유는 무엇입니까?

하나 이상의 후보를 던지기 위해 위의 표를 2x2 우연의 표로 다시 작성할 수 있으며 Fisher의 정확한 검정 (p5)을 사용할 수 있습니다.

              Non converters  Converters  Row Total
Version A     1881            188         2069  
Versions B    1606            220         1826
Column Total  3487            408         3895

그러나이 스레드 에 따르면 피셔의 정확한 테스트는 더 작은 샘플 크기에서만 사용해야합니다 (잘라낸 부분은 무엇입니까?)

그리고 t와 z 테스트, f 테스트 (및 로지스틱 회귀, 그러나 지금은 그만두고 싶습니다)가 쌍을 이루고 있습니다 .... 나는 다른 테스트 접근법에서 익사하는 느낌이 들었습니다. 이 간단한 A / B 테스트 사례에서 여러 가지 방법에 대해 일종의 논쟁을 펼치십시오.

예제 데이터를 사용하여 다음 p- 값을 얻습니다.

  1. https://vwo.com/ab-split-test-significance-calculator/ p 값 0.001 (z 점수)을 제공합니다

  2. http://www.evanmiller.org/ab-testing/chi-squared.html (카이 제곱 테스트 사용)은 p- 값이 0.00259입니다.

  3. 그리고 R fisher.test(rbind(c(1881,188),c(1606,220)))$p.value에서 0.002785305의 p- 값을 제공합니다

어느 것이나 아주 가까운 것 같아요 ...

어쨌든-표본 크기가 일반적으로 수천이고 응답 비율이 종종 10 % 이하인 온라인 테스트에서 어떤 접근법을 사용해야하는지에 대한 건전한 토론을 원합니다. 내 직감은 나에게 카이-제곱을 사용하라고 말하고 있지만 왜 내가 그것을 다른 여러 가지 방법으로 선택하는지 정확하게 대답하고 싶다.


약으로 - 그리고 : 귀하의 질문은 이미 여기에 대한 답변 -tests stats.stackexchange.com/questions/85804/...zt

이 데모가 꽤 유용하다는 것을 알았습니다. 이는 비율에 대한 z 검정이 2x2 우연성 표의 동질성 카이 제곱 검정과 본질적으로 동일 함을 보여줍니다. rinterested.github.io/statistics/chi_square_same_as_z_test.html
yueyanw

답변:


24

우리는 다른 이유로 그리고 다른 상황에서 이러한 테스트를 사용합니다.

  1. z z zz 테스트. 우리의 관찰이 독립적으로 알 수없는 평균과 정규 분포에서 작성한 것으로 가정 -test 알려진 분산. 우리는 정량적 자료가있을 때 주로 사용된다 -test. (즉, 설치류의 체중, 개인의 연령, 수축기 혈압 등) 그러나 비율에 관심이있을 때 검정을 사용할 수도 있습니다. (즉, 적어도 8 시간의 수면을 취하는 사람들의 비율 등)zzz

  2. t t t zt 테스트. 우리의 관찰이 독립적으로 알 수없는 평균과 정규 분포에서 작성한 것으로 가정 -test 알 수없는 차이. 을 사용 하면 모집단 분산을 알 수 없습니다. 이는 모집단 분산을 아는 것보다 훨씬 흔하므로 은 보다 일반적으로 더 적합 하지만 표본 크기가 클 경우 실제로 두 간에 차이가 거의 없습니다.tttz

함께 - 및 -tests하여 대립 가설은 한 그룹의 사용자의 인구 평균 (또는 인구의 비율) 중 하나와 같지 미만, 이상 인구 평균 (또는 비율) 또는 다른 그룹보다인지 할 것이다. 이것은 수행하려는 분석 유형에 따라 다르지만 귀무 가설과 대립 가설은 두 그룹의 평균 / 비율을 직접 비교합니다.tzt

  1. 카이 제곱 테스트. 및 검정은 정량적 데이터 (또는 의 경우 비율)에 관한 반면 , 카이 제곱 검정은 정 성적 데이터에 적합합니다. 다시, 가정은 관측치가 서로 독립적이라는 것입니다. 이 경우 특정 관계를 추구하지 않습니다. 귀무 가설은 변수 1과 변수 2 사이에 관계가 없다는 것입니다. 대체 가설은 관계가 존재한다는 것입니다. 이것은이 관계가 어떻게 존재하는지 (즉, 어느 방향으로 관계가 진행되는지)에 대한 구체적인 정보를 제공하지는 않지만 독립 변수와 그룹 사이에 관계가 존재한다는 (또는 존재하지 않는) 증거를 제공합니다.t zztz

  2. 피셔의 정확한 시험. 카이 제곱 테스트의 단점 중 하나는 점근 법입니다. 이는 매우 큰 표본 크기에 대해 값이 정확함을 의미 합니다. 그러나 표본 크기가 작 으면 값이 정확하지 않을 수 있습니다. 따라서 Fisher의 정확한 검정을 사용하면 데이터 의 값 을 정확하게 계산할 수 있으며 표본 크기가 작은 경우 열악한 근사값에 의존하지 않습니다.p pppp

샘플 크기에 대해 계속 논의합니다. 참조가 다르면 샘플이 충분히 큰시기에 대한 다른 측정 항목이 제공됩니다. 평판이 좋은 출처를 찾고 규칙을보고 규칙을 적용하여 원하는 테스트를 찾습니다. 나는 당신이 "좋아하는"규칙을 찾을 때까지 "주변을 둘러 보지"않을 것입니다.

궁극적으로, 선택한 테스트는 a) 표본 크기와 b) 가정이 취하고 자하는 형식을 기반으로해야합니다. A / B 테스트에서 특정 효과를 찾고 있다면 (예를 들어, B 그룹의 테스트 점수가 더 높음) 표본 크기와 모집단에 대한 지식이 있을 때 -test 또는 - test를 선택합니다. 변화. 관계가 단순히 존재한다는 것을 보여주고 싶다면 (예를 들어, 내 A 그룹과 B 그룹이 독립 변수에 따라 다르지만 어떤 그룹이 더 높은 점수를 갖는지는 신경 쓰지 않습니다) 카이 제곱 또는 Fisher의 정확한 테스트는 샘플 크기에 따라 적절합니다.tzt

이게 말이 돼? 도움이 되었기를 바랍니다!


자세한 답변 주셔서 감사합니다! 자세한 내용을 살펴 보겠습니다. 몇 가지 질문이있을 것입니다.
L Xandor

카이 제곱 및 피셔 정확 검정이 효과의 방향을 나타내지 않는 방법을 추가로 설명해 주시겠습니까? 모든 추론 통계 검정이 두 모집단이 다른 모집단 또는 동일한 모집단에서 추출되었는지 여부에 대한 신뢰 수준을 제공하는 경우 평균 값의 방향 차이를 유지할 수없는 수학적 이론은 무엇입니까 (B 그룹 점수가 더 높습니까?)
Chris F

명확성을 위해 카이 제곱 검정과 Fisher의 정확한 검정은 동일한 작업을 수행하지만 p- 값은 약간 다르게 계산됩니다. (이것은 카이 제곱 하의 근사치이며 Fisher의 정확한 하의 정확한 계산입니다.) 카이 제곱을 다루고 Fisher 's로 일반화합니다. 여기서 문제는 전제입니다. "모든 추론 적 통계 테스트가 두 개의 샘플이 추출되는지 여부에 대한 신뢰 수준을 제공하는 경우 ..."-카이 제곱 테스트는 그렇지 않습니다. 카이 제곱 검정에 대한 귀무 가설은 연관성과 대체 가설이 없다는 것입니다.
Matt Brems

두 범주 형 변수 사이에 연관성이 있다는 것입니다. 당신은 단지 협회의 존재를 테스트하고 특정 방향을 미리 지정하지 않습니다. (DO가 특정 관계를 지정하는 것으로 알려진 통계가 거의 없기 때문에 가능하지만 카이 제곱 검정이 수행하도록 설계된 것은 아닙니다.) 이후에 다음과 같은 특정 방향 관계가 있다고 추론합니다. 연관성의 존재를 테스트하기 위해 설계된 다른 가설 세트에서 계산 된 p- 값은 실수입니다.
Matt Brems

예를 들어, 가설 대 하고 -test 를 수행 하고 값이 0.04라고 가정하십시오. 귀무 가설을 기각하고 차이가 있다는 결론을 내립니다. 에 대한 추정치 가 보다 실제 평균 가 보다 결론을 내릴 수도 있습니다. 그러나 가설 대 을 가정하면 동일한 데이터에서 값은 0.08이고 가정하면 null을 거부 하지 않으므로 가 0보다 크다고 결론을 내릴 수 없습니다 .H A : μ 0 t p μ μ H 0 : μ 0 H A : μ > 0 p α = 0.05 μH0:μ=0HA:μ0tpμμH0:μ0HA:μ>0pα=0.05μ
Matt Brems

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.