실험을 다시 실행하여 웹 a / b 테스트의 유효성을 검사하십시오. 이것이 유효합니까?


11

며칠 전에 a / b 테스트 회사의 웹 세미나에서 상주 "데이터 과학자"가 실험을 다시 실행하여 결과를 확인해야한다고 설명했습니다. 전제 조건은 95 % 신뢰를 선택하면 오 탐지 확률이 5 % (1/20)라는 것입니다. 동일한 제약 조건으로 실험을 다시 실행하면 1/400이 있습니다 (이것이 0.05 ^ 2 = 1/400으로 결정되었다고 가정합니다)

이것이 유효한 진술입니까? (즉, "두 번 실행, 두 개의 통계적 유의성 승 = 거짓 양성 확률 1/400")? 귀하의 유의 수준을 높이는 더 나은 접근 방법 이었습니까?

비즈니스 관점에서, 내가 가진 문제는 실험을 다시 실행하고, 더 많은 사용자를 열등한 페이지 (처리)에 노출시켜 잠재적 판매를 잃는 것입니다.


2
안녕하세요, Stats.SE에 오신 것을 환영합니다! 답변 중 하나에 만족하면 답변 중 하나를 수락하거나 찾고자하는 것에 대한보다 명확한 질문을 제공해야합니다.
Christopher Aden

존, 나는 실제 문제가 상황과 관련이 있다고 생각합니다. 사람들이 한 번에 하나의 학습에만 자원을 사용하는 것은 드문 일입니다. 정당한 이유로 데이터를 최대한 활용하려고합니다. 즉, 각 데이터 세트는 여러 테스트에 사용됩니다. 또한 때때로 테스트는 사후 에 수행됩니다. 데이터에서 볼 수있는 패턴에서 영감을 얻은 것입니다. 이러한 경우 테스트에는 실제로 원하는 95 % (또는 기타) 신뢰도가 없으며 복제가 필수적입니다. "실험"이란 정확히 무엇을 의미합니까? 대답은 그 작은 세부 사항에 달려 있습니다!
whuber

실험 반복 및 유의성 값에 대해서는 다음 XKCD 만화를 확인하십시오 : xkcd.com/882 위 내용을 읽은 후 위의 whuber 의견을 확인하십시오.
Lucas Gallindo

whuber : 세부 정보가 부족하여 죄송합니다. 웹 사이트 최적화를 참조하고 있습니다. 따라서 실험의 예는 내 홈페이지의 두 가지 버전을 시험하고 50/50 명의 사용자를 각각 시험합니다.
John

답변:


3

현재 오 탐지 확률을 무시하고 다음과 같이 봅니다.

  1. 실험을 두 번 실행하여 동일한 결과를 얻는 경우 두 개의 진정한 긍정적 결과 또는 두 개의 잘못된 긍정적 결과가 연속으로 존재하는지 알 수 없습니다.
  2. 실험을 두 번 실행하고 두 가지 다른 결과를 얻는 경우 어떤 것이 진짜 긍정적이고 어떤 것이 잘못된 긍정적 결과인지 알 수 없습니다.

두 경우 모두 확실하게 세 번째 실험을 수행해야합니다. 이는 상대적으로 저렴한 실험이지만 비용이 많이 드는 곳 (고객을 잃는 것과 같은)에서는 실제로 이점을 고려해야합니다.

실험을 처음 시작할 때 확률을 보면 1/20의 오 탐지 확률이 있습니다. 두 번째로 실험을 실행하면 여전히 1/20의 오 탐지 확률이 있습니다 (각 롤이 특정 숫자를 얻을 수있는 1/6의 확률로 주사위를 굴리는 것으로 생각하십시오). 연속으로 2 개의 오탐 (false positive)을 가질 확률은 1/400입니다.

실제 문제는 엄격한 절차를 통해 잘 정의 된 가설을 세우고 표본 크기, 오류 수준 및 신뢰할 수있는 간격을 갖는 것입니다. 실험의 반복은 탐구해야한다

  1. 시간이 지남에 따라 고객
  2. 조직의 변경
  3. 경쟁에 의한 변경

두 번째 추측 결과보다는. 관리자에게 이것을 설명하는 것이 말보다 쉽습니다.


mjc, 댓글 주셔서 대단히 감사합니다-이것은 내가 찾던 것입니다.
John

2

실험이 이상적이라고 가정하면 그 진술은 정확합니다. 그러나 이상적인 실험을하는 것은이 감정이 신뢰를주는 것보다 훨씬 어려운 방법입니다. "실제 세계"데이터는 처음에는 지저분하고 복잡하며 해석하기가 어렵습니다. 결함이있는 분석, 숨겨진 변수 (매우 "같은 제약 조건"은 거의 없음) 또는 데이터 과학자와 데이터 마킹 담당자 사이의 잘못된 의사 소통을위한 엄청난 여지가 있습니다.

비즈니스 관점에서 좋은 방법론을 보장하고 결과에 지나치게 자신감을 가지지 않아야합니다. 생각보다 까다로운 도전. 일단 다운하면 그 5 %로 작업하십시오.


감사합니다. 첫 번째 질문에 대한 답변입니다. 두 번째 질문은 "의미 수준을 높이는 더 나은 접근 방법이었을 것입니까?" R에서 빠른 시뮬레이션을 수행하면 (동일한 효과 크기와 성능을 유지하면서 유의성 값만 변경) 95 % 유의 도로 2X 실험을 실행하는 대신 97.5 % 유의성을 선택하여 ~ 4.8 % 더 적은 데이터를 수집 할 수 있습니다. 나는 "더 좋았 을까?"라고 물을 때 명확히해야한다. 더 적은 양의 데이터를 수집함으로써 동일한 최종 결과를 달성 할 수 있다는 것을 의미한다.
John
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.