두 개의 독립적 인 비율에 대한 검정력 분석에서 어떻게 정지 규칙을 개발할 수 있습니까?


18

A / B 테스트 시스템에서 일하는 소프트웨어 개발자입니다. 통계에 대한 배경 지식이 없지만 지난 몇 개월 동안 지식을 얻었습니다.

일반적인 테스트 시나리오는 웹 사이트에서 두 개의 URL을 비교하는 것입니다. 방문자가 방문한 LANDING_URL다음 URL_CONTROL또는 로 무작위로 전달됩니다 URL_EXPERIMENTAL. 방문자는 샘플을 구성하며 방문자가 해당 사이트에서 원하는 조치를 수행 할 때 승리 조건이 달성됩니다. 이는 전환을 구성하며 전환율은 전환율입니다 (일반적으로 백분율로 표시). 특정 URL의 일반적인 전환율은 0.01 % ~ 0.08 % 범위입니다. 새 URL을 기존 URL과 비교하는 방법을 결정하기 위해 테스트를 실행합니다. URL_EXPERIMENTAL성능이 우수한 것으로 표시 되면 로 URL_CONTROL교체 URL_CONTROL합니다 URL_EXPERIMENTAL.

우리는 간단한 가정 테스트 기술을 사용하여 시스템을 개발했습니다. 나는 다른 CrossValidated 질문에 대한 답변을 사용 여기에 이 시스템을 개발.

테스트는 다음과 같이 설정됩니다.

  • 의 전환율 추정치 CRE_CONTROLURL_CONTROL이력 데이터를 사용하여 계산됩니다.
  • 원하는 목표 전환율 CRE_EXPERIMENTAL의이 URL_EXPERIMENTAL세트이다.
  • 0.95의 유의 수준이 일반적으로 사용됩니다.
  • 0.8의 거듭 제곱이 일반적으로 사용됩니다.

이러한 모든 값을 함께 사용하여 원하는 샘플 크기를 계산합니다. power.prop.test이 샘플 크기를 얻기 위해 R 함수 를 사용하고 있습니다.

모든 샘플이 수집 될 때까지 테스트가 실행됩니다. 이 시점에서의 신뢰 구간 CR_CONTROL및이 CR_EXPERIMENTAL계산된다. 겹치지 않으면 0.95의 레벨과 0.8의 힘으로 승자를 선언 할 수 있습니다.

테스트 사용자에게는 다음과 같은 두 가지 주요 관심사가 있습니다.

1. 테스트 도중 어느 시점에서 확실한 승자를 보여주기 위해 충분한 샘플을 수집하면 테스트를 중단 할 수 없습니까?

2. 테스트 종료시 당첨자가 선언되지 않은 경우 당첨자를 찾기에 충분한 샘플을 수집 할 수 있는지 확인하기 위해 테스트를 더 오래 실행할 수 있습니까?

사용자가 우리 자신의 사용자가 원하는 것을 정확하게 수행 할 수 있도록하는 많은 상용 도구가 존재합니다. 나는 위의 내용에 많은 오류가 있음을 읽었지만 중지 규칙에 대한 아이디어를 발견했으며 자체 시스템에서 그러한 규칙을 사용할 가능성을 탐색하고 싶습니다.

다음은 두 가지 접근 방식입니다.

1.를 사용 power.prop.test하여 현재 측정 된 전환율을 현재 샘플 수와 비교하고 우승자를 선언하기에 충분한 샘플이 수집되었는지 확인하십시오.

예 : 시스템에 다음과 같은 동작이 있는지 테스트가 설정되었습니다.

  • CRE_CONTROL: 0.1
  • CRE_EXPERIMENTAL: 0.1 * 1.3
  • 이 매개 변수를 사용하면 샘플 크기 N는 1774입니다.

그러나 테스트가 진행되고 325 개의 샘플에 도달하면 CRM_CONTROL(제어를위한 측정 된 변환 속도)는 0.08이고 CRM_EXPERIMENTAL0.15입니다. power.prop.test이 전환율로 실행되며 N325 인 것으로 밝혀졌습니다. 정확하게 CRM_EXPERIMENTAL승자라고 선언 하는 데 필요한 샘플 수 ! 이 시점에서 테스트가 끝날 수 있기를 희망합니다. 마찬가지로, 테스트가 1774 개 샘플에 도달하지만 승자가 발견되지 않은 경우 2122 개 샘플에 도달하면 CRM_CONTROL0.1의 샘플을 표시하기에 충분 하며 CRM_EXPERIMENTAL0.128은 승자가 선언 될 수있는 결과입니다.

A의 관련 질문 사용자는 이러한 테스트는 초기 적은 수의 샘플을 가지고도에 취약 정지 격려로 인해 덜 신빙성 조언 추정 바이어스 및 유형 I 및 유형 II 오류의 수가 증가. 이 중지 규칙을 작동시키는 방법이 있습니까? 이는 프로그래밍 시간이 단축되므로 선호되는 접근 방식입니다. 어쩌면이 중지 규칙은 테스트의 신뢰성을 측정하는 어떤 종류의 수치 점수를 조기에 중단해야한다면 효과가 있을까요?

2. 순차적 분석 또는 SPRT 사용 .

이러한 테스트 방법은 우리가 처한 상황에 맞게 설계되었습니다. 사용자가 테스트에서 초과 시간을 낭비하지 않는 방식으로 테스트를 시작하고 종료 할 수있는 방법은 무엇입니까? 테스트를 너무 오래 실행하거나 다른 매개 변수로 테스트를 다시 시작해야합니다.

위의 두 가지 방법 중 SPRT를 선호합니다. 수학이 좀 더 이해하기 쉽고 프로그래밍하기가 더 쉬울 수 있기 때문입니다. 그러나이 맥락에서 가능성 함수 를 사용하는 방법을 이해하지 못합니다 . 만약 누군가가 우도 비 계산 방법에 대한 예, 우도 비의 누적 합을 구하고, 귀무 가설과 대립 가설을 받아 들일 때 모니터링을 계속할 상황을 설명하는 예를 계속하면, SPRT가 올바른 방법인지 판단하는 데 도움이됩니다.


2
부두에 의지하지 말 것을 권합니다. 도구를 사용 중이고 도구의 기능 또는 작동 방식을 정확히 이해하지 못하면 도구의 결과를 해석 할 자격이 없습니다. 분석이 비즈니스 의사 결정을 주도하고 결과에 시간과 돈을 투입 할 때 데이터 소스를 이해하는 데 시간이 걸리면 소유권이 표시됩니다. "집단에있는"대신 더 많은 기회를주는 것은 일종의 노력입니다.
EngrStudent-복직 모니카

답변:


7

이것은 흥미로운 문제이며 관련 기술에는 많은 응용 프로그램이 있습니다. 그것들은 종종 "임시 모니터링"전략 또는 "순차적 실험 설계"(당신이 링크 한 위키 백과 기사는 약간 드문 드문 경우)라고 불리지 만, 이것에 대해 여러 가지 방법이 있습니다. @ user27564는 이러한 분석이 반드시 베이지안이어야한다고 잘못 잘못 판단한 것 같습니다.

에스에스()=()=0.558엑스 그런 1에프(엑스;100;0.5)<α에프

비슷한 논리를 통해 다음과 같은 다른 테스트의 "피할 수없는 지점"을 찾을 수 있습니다.

  1. 총 샘플 크기 *는 고정되어 있으며
  2. 각 관측치는 한계량을 샘플에 기여합니다.

이 방법은 구현하기 쉬울 것입니다. 중지 기준을 오프라인으로 계산 한 다음 사이트 코드에 연결하기 만하면됩니다. 그러나 결과가 불가피 할 때뿐만 아니라 실험을 종료하려는 경우 더 나은 결과를 얻을 수 있습니다. 그러나 변화가 거의 없을 때.

다른 많은 접근법들도 있습니다. 그룹 순차 방법 은 정해진 수의 피사체를 얻지 못할 수 있고 상황이 가변적 인 속도로 흐르는 상황을 위해 고안되었습니다. 사이트의 트래픽에 따라이를 보거나 원하지 않을 수 있습니다.

CRAN을 둘러싸고있는 많은 수의 R 패키지가 있습니다. 이것이 분석에 사용하는 것입니다. 시작하기에 좋은 장소는 실제로 임상 시험 작업보기 일 수 있습니다. 이 작업의 많은 부분이 해당 분야에서 나왔기 때문입니다.


[*] 친절한 조언 : 매우 많은 수의 데이터 포인트에서 계산 된 유의 값을 볼 때주의하십시오. 당신은 더 많은 데이터를 수집, 당신은 것입니다 결국 중요한 결과를 찾을 수 있지만, 효과는 하찮게 작은 수 있습니다. 예를 들어 당신이 지구 전체를 요구한다면, 그들은 선호 여부 B는, 그건 아주 당신이 정확한 50:50 분할을 볼 것 같지는하지만, 분할 50.001 경우 그것은 아마 당신의 제품을 재정비 가치가 없어 : 49.999. 효과 크기 (즉, 전환율 차이)도 계속 확인하십시오!


1
사용자의 우려를 명시 적으로 해결하기 위해 : 예, 분석을 조기에 종료 할 수 있습니다. 이것은 임상 시험에서 항상 발생합니다. 약은 효능에 대한 충분한 데이터를 가지고 있으며 통제 그룹에 갇힌 사람들에게주고 싶어하는 엄청난 성공입니다. 흉상 / 물건 악화). 그러나 실험을 확장하는 것은 더 많은 논쟁을 불러 일으킬 수 있습니다. 여러 "룩"을 수정하는 방법이 있지만 최대 N을 미리 수정하는 것이 좋습니다. 항상 조기에 중지 할 수 있습니다!
매트 크라우스

2
이것에 대해 감사합니다. 실험이 불가피한 경우 중지하는 것에 전적으로 동의합니다. '실제로 가능성이 낮 으면 멈추는 것'으로 인해 나는 실제 잦은 주의자가 동의 할 것입니다. 이보다 적은 것은 아닙니다 : 이봐, 95 %? 나는 93 %도 좋다고 말할 것입니다! 또한 90 %의 신뢰만으로도 만족할 수 있지만 데이터를보기 전에 빈번히 사용하는 것이 좋습니다!
SebastianNeubauer

1
나는 빈번한 연주자가 아니며 TV에서 연주하지도 않지만 조기 중지 규칙을 합리적으로 자주 해석 할 수 있다고 생각합니다.이 실험을 100 번 실행하면 얼마나 자주 a 내가 지금 멈췄다면 vs. 내가 뛰었을 때 다른 대답? 내가 검토 한 결과 이것은 베이지안과 빈번한 사람들을 동시에 만족시킬 수있는 좋은 사례 중 하나라고 지적했다.
Matt Krause

α

1
@ RussellS.Pierce : 나는 그것이 달려 있다고 생각합니다. 분명히 축소는 그렇지 않지만 다른 방법은 그렇지 않습니다. 예를 들어 O'Brein and Flemming 테스트는 더 많은 데이터를 사용할 수 있지만 더 일찍 거부 할 수도 있고 Pocock의 테스트는 훨씬 더 그렇습니다. 그것은 분명히 구체적인 내용에 달려 있습니다 : 위에 링크 된 책에는 합리적인 값을 가진 예가 있습니다 (효과 크기 : 0.25, alpha = 0.05, power = 0.9, 5 look). 고정 N 버전은 거부 할 170 명의 피험자가 필요합니다. OBF 버전은 최대 180 개, Pocock은 최대 205 개가 필요하지만 예상되는 피사체 수는 각각 130과 117입니다.
매트 크라우스

1

일찍 멈출 수 있지만, 그렇게하면 p- 값을 쉽게 해석 할 수 없습니다. p- 값의 해석에 신경 쓰지 않는다면 처음 두 질문에 대한 대답이 '아니오'인 방법은 중요하지 않습니다. 당신의 고객은 실용적으로 보일 것이므로 p- 값의 진정한 해석은 당신이 신경 쓰는 요점이 아닙니다.

나는 당신이 제안하는 두 번째 접근법에 대해 말할 수 없습니다.

그러나 첫 번째 접근 방식은 탄탄하지 않습니다. 이항 분포의 정규 근사값은 낮은 비율에 대해서는 유효하지 않습니다 (power.prop.test에서 사용하는 방법, Cohen이 고전 서적에서 권력에 사용하는 방법 임). 또한 내가 아는 한, 2- 표본 비율 검정을위한 폐쇄 형 전력 분석 솔루션이 없습니다 (참조 : 정규 근사값을 사용하지 않고 어떻게 2 그룹 이항 전력 분석을 수행 할 수 있습니까? ). 그러나 비율의 신뢰 구간을 근사하는 더 좋은 방법이 있습니다 (패키지 이항 참조). 겹치지 않는 신뢰 구간을 부분 솔루션으로 사용할 수 있지만 이는 p- 값을 추정하는 것과 같지 않으므로 직접 전력에 대한 경로를 제공하지 않습니다. 누군가 다른 사람들과 공유 할 멋진 폐쇄 형 솔루션이 있기를 바랍니다. 하나를 우연히 발견하면 위에서 언급 한 질문을 업데이트 할 것입니다. 행운을 빕니다.

편집 : 그것에 대해 생각하고있는 동안 잠시 동안 완전히 실용적입니다. 고객은 실험 사이트가 대조 사이트보다 잘 작동하고 있다고 확신 할 때이 실험을 끝내기를 원합니다. 괜찮은 샘플을 얻은 후에 결정을 내릴 준비가되지 않은 경우, '승리 된'측면에 대한 무작위 할당 비율을 조정하기 시작하십시오. 그것이 단지 실수라면, 평균을 향한 회귀가 미끄러질 것이고, 당신은 덜 확실 해지고 비율을 완화시킬 것입니다. 당신이 합리적으로 확신 할 때, 그것을 종료하고 승자를 선언하십시오. 최적의 접근 방식은 베이지안 업데이트와 관련이있을 수 있지만,이 주제에 대해 충분히 알지 못합니다. 그러나 때로는 직관적이지 않은 것처럼 보일 수 있지만 수학 자체는 그다지 어려운 것은 아닙니다.


0

귀하가 가진 질문은 통계 테스트에서 나타나는 일반적인 질문입니다. 잦은 주의자와 베이지안이라는 두 가지 통계의 풍미가 있습니다. 잦은 질문은 두 질문 모두에 대한 쉬운 답변입니다.

  • 아니
  • 아니요, 일찍 멈출 수 없습니다
  • 아니요, 더 이상 측정 할 수 없습니다

설정을 정의한 후에도 데이터를 볼 수 있습니다 (맹검 분석). 잦은 관점에서 볼 때, 속임수도없고 속임수도 없습니다! (편집 : 물론 그렇게하려는 시도가 있으며 올바르게 사용하면 작동하지만 대부분 편향을 일으키는 것으로 알려져 있습니다.)

그러나 베이지안 관점이 있습니다. 베이지안 접근법은 잦은 주의자들과 달리 사전 입력 확률 분포라는 추가 입력이 필요합니다. 우리는 그것을 사전 지식이나 편견이라고 부를 수도 있습니다. 이를 통해 데이터 / 측정을 사용하여 지식을 a-posteriori 확률로 업데이트 할 수 있습니다. 요점은 데이터를 사용할 수 있으며 측정의 모든 중간 지점에서 데이터를 사용할 수 있다는 것입니다. 각 업데이트에서 마지막 후부는 우리의 새로운 우선 순위이며 최신 지식으로 새로운 측정으로 업데이트 할 수 있습니다. 조기 중지 문제가 전혀 없습니다!

나는 당신이 가지고있는 문제와 매우 비슷한 토론을 발견했으며 위에서 설명했습니다 : http://biostat.mc.vanderbilt.edu/wiki/pub/Main/JoAnnAlvarez/BayesianAdaptivePres.pdf

그러나 이것 옆에, 당신은 정말로 이것이 정말로 필요하다고 확신합니까? 요청을 링크 할 위치를 결정하는 일부 시스템이 실행중인 것 같습니다. 이를 위해 가설 검정을 사용하여 미적분이 통계적 의미에서 정확하다는 것을 증명할 필요는 없습니다. 펩시가 95 % 확률로 '당장'이라는 것을 배제 할 수 있기 때문에 콜라를 구입 한 적이 있습니까? 가설을 배제하지 않고 단지 더 나은 것을 취하는 것으로 충분합니다. 그것은 사소한 알고리즘 일 것입니다 : 비율 A의 불확실성을 계산하고, B의 불확실성을 계산하십시오. 두 비율의 차이를 취하여 차이의 불확실성에 의해 고안하십시오. 결과는 시그마 차이의 중요성과 같습니다. 그런 다음 시그마 차이가 2 ~ 3 이상인 모든 링크를 가져 가십시오. 약점,


1
첫 네 단락은 약간의 청어라고 생각합니다. 중간 모니터링에는 빈번한 접근 방식이 있습니다. (Bayesian) 후부 업데이트는 이것에 잘 어울리는 것이 사실이지만, 여러 가지 방법으로이 문제를 해결할 수 있습니다. 슬라이드에 대한 포인터 감사합니다!
매트 크라우스

어쨌든 +1-베이지안 접근 방식은 아마도 빈번한 수정보다 분명합니다.
russellpierce

2
베이지안 방법을 사용하면 아무 문제없이 데이터를 끝없이 볼 수 있습니다. 그러나 전체 유형 I 오류율은 실제로 제어되지 않으며 (이유는 무엇입니까?) 많은 "looks"후에는 임의로 커질 수 있습니다. 적절한 사전에 이것을 개선하거나, 제 1 종 오류를 통제하는 것이 지체하다고 주장 할 수 있지만, 모든 베이지안 기법이 만병 통치약 인 것은 아닙니다.
매트 크라우스

0

어쩌면 일부 방법을 사용할 수 있습니다

  • 포콕
  • 오브라이언과 플레밍
  • 페토

결과에 따라 P 컷오프를 조정하고 데이터 수집을 중지하고 리소스와 시간을 절약하는 데 도움이됩니다.

다른 작품도 여기에 추가 할 수 있습니다.


글 머리 기호에 대한 링크 또는 추가 정보를 제공 할 수 있습니까?
Antoine

나는 이것을 인용하는 리뷰 기사를 사용했기 때문에 정확한 기사가 없습니다. 접근법이 다르지만 의료 분야에서 질문을 관리하는 기사를 추천 할 수 있습니다 : 임상 시험에서 적응 적 샘플 크기 수정 : 작은 시작 더 요청? Christopher Jennisona * † 및 BruceW. 턴
블롭
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.