A / B 테스트를위한 샘플 크기를 안전하게 결정


22

A / B 테스트 도구 를 구축하려는 소프트웨어 엔지니어 입니다. 나는 통계 통계가 확실하지 않지만 지난 며칠 동안 꽤 많이 읽었습니다.

여기에 설명 된 방법론을 따르고 있으며 아래 관련 요점을 요약합니다.

이 도구를 사용하면 설계자와 도메인 전문가가 웹 사이트를 구성하여 특정 URL에서 수신 된 트래픽을 둘 이상의 URL로 분할 할 수 있습니다. 예를 들어 http://example.com/hello1에 도착하는 트래픽 은 http://example.com/hello1http://example.com/hello2 로 분할 될 수 있습니다 . 트래픽이 대상 URL간에 균등하게 분할되고 각 대상 URL에서 마케팅 프로세스의 성능이 비교됩니다.

이 실험에서 샘플 크기 N는 방문자에 해당합니다. 이 테스트는 방문자가 마케팅 프로세스에서 특정 작업을 수행 할 때를 설명하는 용어 인 "전환"을 측정합니다. 전환율은 백분율로 표시되며 전환율이 높을수록 좋습니다. 이것은 테스트를 독립 비율의 비교로 만듭니다. 안전한 결과를 가진 테스트를 생성하려면 도구를 쉽게 사용할 수 있어야합니다. 적절한 값을 선택하는 N것이 중요합니다.

위의 링크 된 기사에서, 두 개의 독립적 인 비율에 대한 검정력 분석이 사용됩니다 N. 이 방법을 사용하려면 원하는 전환율을 미리 지정하고 컨트롤의 전환율을 미리 알고 있어야합니다. 또한 유의 수준 95 % 및 통계 검정력 80 %를 지정합니다.

질문 :

  1. N소리 를 결정하는이 방법 입니까? 그렇다면 테스트를 시작하기 전에 컨트롤의 전환율을 결정하는 가장 안전한 방법은 무엇입니까?
  2. N컨트롤의 전환율을 미리 알 필요가없는 올바른 결정 방법이 있습니까?
  3. 링크 된 기사 의 방법론이 적절 합니까? 그렇지 않다면, 나를 연결시킬 수있는 접근하기 쉽고 소화하기 쉬운 방법이 있습니까?

답변:


12

이러한 종류의 테스트를 수행하는 가장 일반적인 방법은 이항 비례 신뢰 구간을 사용하는 것입니다 ( http://bit.ly/fa2K7B 참조 )

두 경로의 "진정한"전환율을 알 수는 없지만 "99 % 신뢰 수준에서 A가 B보다 전환에 더 효과적"이라는 효과를 줄 수 있습니다.

예를 들면 다음과 같습니다. 경로 A에서 1000 번의 시행을 실행했다고 가정합니다.이 1000 번의 시행 중 121 번의 변환이 성공적으로 이루어졌으며 (전환율 0.121)이 0.121 결과에 대해 99 % 신뢰 구간을 원합니다. 99 % 신뢰 구간에 대한 z- 점수는 2.576이므로 (표에서 찾아 보면됩니다) 따라서 99 % 신뢰도로 이라고 말할 수 있습니다 . 여기서 는 프로세스 A의 "참"전환율입니다.

^±2.576(0.121(10.121)1000)^±0.027
0.094^0.148^

프로세스 B에 대해 유사한 간격을 구성하면 간격을 비교할 수 있습니다. 구간이 겹치지 않으면 98 %가 한 쪽이 다른 쪽보다 낫다고 확신 할 수 있습니다. (우리는 각 구간에 대해 99 %의 확신을 가지므로 비교에 대한 전반적인 신뢰는 0.99 * 0.99입니다)

간격이 겹치는 경우에, 우리는 더 시험을 실행해야하거나 성능이 우리에게 까다로운 부분 가져 오는 구별하기에 너무 유사하다고 결정 - 결정 , 임상 시험의 수를. 나는 다른 방법에 익숙하지 않지만이 방법을 사용하면 A와 B의 성능을 정확하게 예측하지 않으면 을 미리 결정할 수 없습니다 . 그렇지 않으면 간격이 분리되도록 샘플을 얻을 때까지 시험을 실행해야합니다.

행운을 빈다 (저는 프로세스 B를 응원하고 있습니다).


2
@ronny 사이트에 오신 것을 환영합니다. 여기가 처음이므로 FAQ 를 읽어보십시오 . 무엇보다도이 사이트는 지원합니다에이이자형엑스^

^0.094^0.148sucessestrials^

이 답변은 잘못되었습니다. 구체적으로 : "간격이 겹치지 않으면 98 %의 신뢰도로 한 쪽이 다른 쪽보다 낫다고 말할 수 있습니다." 겹치지 않는 99 % 신뢰 구간이 두 개이면 LEAST 99 %에서 차이가 0을 제외한다는 신뢰도입니다. 구간의 크기가 동일한 경우 차이는 99.97 % 수준에서 유의합니다. stats.stackexchange.com/questions/18215 cscu.cornell.edu/news/statnews/Stnews73insert.pdf
Bscan

@Bscan 귀하의 의견에 다른 가치가 있습니까? 예를 들어, 동일한 크기의 두 개의 겹치지 않는 30 % 신뢰 구간이있는 경우 평균의 차이가 30 % 이상이라고 말하는 것이 옳습니까?
Felipe Almeida

1
@Felipe, 예, 주석은 모든 값에 대해 유지되며 겹치지 않는 30 % 신뢰 구간은 차이가 0을 제외한 30 % 이상이라는 신뢰를 나타냅니다. 그러나 이것이 평균의 30 % 차이가 있다는 것을 의미하지는 않습니다. 진정한 수단은 매우 유사 할 수 있습니다. 우리는 그것들이 정확히 동일하지 않다는 것을 증명하려고합니다.
Bscan

8

IMHO는 게시물이 올바른 방향으로 진행됩니다. 하나:

  • 제안 된 방법은 암시 적으로 두 가지 가정, 즉 기준 전환율과 예상되는 변화량을 가정합니다. 표본 크기는 이러한 가정을 얼마나 잘 충족 시키는가에 달려 있습니다. 현실적으로 생각되는 p1과 p2의 여러 조합에 필요한 샘플 크기를 계산하는 것이 좋습니다. 그러면 샘플 크기 계산이 실제로 얼마나 안정적인지에 대한 느낌을 얻을 수 있습니다.

    > power.prop.test (p1=0.1, p2 = 0.1*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 14750.79
                 p1 = 0.1
                 p2 = 0.11
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    
    > power.prop.test (p1=0.09, p2 = 0.09*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 16582.2
                 p1 = 0.09
                 p2 = 0.099
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    

    따라서 실제 전환율이 10 %가 아닌 9 % 인 경우 새 시나리오의 기준 전환율보다 10 % 이상 높은 전환율을 감지하려면 각 시나리오마다 2000 개의 사례가 더 필요합니다.

테스트가 완료된 후 실제 관측치에 따라 비율에 대한 신뢰 구간을 계산할 수 있습니다.


  • sig.level

안녕하세요, 이러한 방법을 비판하는 데 시간을 내 주셔서 감사합니다. 계산 (1-α) ² ≈ 10 %에서 "α"는 무엇을 의미합니까? 테스트 데이터를 캡처하는 데 시간이 오래 걸리므로 세 가지 비율을 테스트하려면이 실험을 어떻게 구성해야합니까? 여러 테스트를 실행하지 않는 안전한 방법이 있습니까? 세 가지 대안을 사용하면 세 가지 테스트로 인한 부담이 크지 않지만 네 가지 대안으로 조합의 수는 최대 6 개입니다.
jkndrkn

1
@jkndrkn : α는 원래 형식, 일명 α- 오류 또는 유형 I 오류에서 잘못 변경 될 확률입니다. 업데이트 된 답변을 참조하십시오.
cbeleites는 Monica

1
@ jkndrkn : 여러 테스트 : 나는 Fleiss et.al. : 이러한 테스트 절차에 대한 비율 및 비율 에 대한 통계 방법을 살펴 보겠습니다 . 그러나 이러한 다중 테스트의 핵심은 필요한 샘플 크기가 대안의 수와 함께 폭발하기 때문에 이미 정의한대로 필요한 샘플 크기가 폭발하기 때문에 항상 전문 지식을 사용하여 테스트를 정의하기 전에 가능한 많은 대안 수를 줄이는 것입니다.
cbeleites는

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.