실험을 시작하기 전에 샘플 크기를 결정하거나 실험을 무기한 실행 하시겠습니까?


12

나는 몇 년 전에 통계를 연구하고 모든 것을 잊어 버렸으므로 이것들은 구체적인 것보다 일반적인 개념적 질문처럼 보일 수 있지만 여기에 내 문제가 있습니다.

전자 상거래 웹 사이트에서 UX 디자이너로 일하고 있습니다. 우리는 그것을 의심하기 시작한 몇 년 전에 만들어진 A / B 테스트 프레임 워크를 가지고 있습니다.

우리가 모든 결정을 내리는 측정 항목은 전환이라고하며, 사이트를 방문한 사용자의 비율에 따라 결정됩니다.

따라서 구매 버튼의 색상을 녹색에서 파란색으로 변경하는 것을 테스트하고 싶습니다.

컨트롤은 이미 보유하고 있으며 녹색 버튼은 평균 전환율이 무엇인지 알 수 있습니다. 실험은 녹색 버튼을 파란색 버튼으로 대체하고 있습니다.

우리는 95 %의 중요성이 우리가 만족하는 신뢰 수준이며 실험을 켜고 실험을 계속 진행한다는 데 동의합니다.

사용자가 사이트를 방문하면 무대 뒤에서 실험 버전 (파란색 버튼)과 대조 버전 (녹색 버튼)으로 전송 될 확률이 50/50입니다.

7 일 후의 실험을 살펴본 결과, 샘플 크기가 3000 (1500은 대조군으로, 1500은 실험으로) 및 통계적으로 99.2 %로 실험에 유리한 전환율이 10.2 % 증가한 것으로 나타났습니다. 훌륭하다고 생각합니다.

실험이 계속되고 샘플 크기가 커지면 98.1 %의 유의미한 전환율이 + 9 % 증가합니다. 자, 실험을 더 오래 계속 진행하면 실험에서 통계적으로 유의미한 92 %의 변환으로 5 % 상승한 것으로 나타 났으며, 프레임 워크에서 95 %의 유의성에 도달하기 전에 4600 개의 샘플이 더 필요하다고 말하고 있습니까?

그러면 실험이 결정적인 시점은 언제입니까?

샘플 크기에 미리 동의하고 실험을 완료 할 때 임상 시험 과정을 생각하면 99 % 유의미한 측정 항목이 10 % 향상되는 것을 볼 수 있습니다. 그러나 만약 그들이 4000 명의 사람들을 대상으로 실험을했는데 92 %의 의미로 5 %의 개선이 이루어 졌다면 그 약은 시장에 나오지 않을 것입니다.

샘플 크기에 미리 동의하고 샘플 크기에 도달하면 중지하고 실험을 중단 할 때의 중요성이 99 % 인 경우 결과에 만족해야합니까?


1
순위 및 선택 에 따라 다른 접근 방식을 사용하는 것을 고려할 수 있습니다 .
pjs

이 영화 ( youtube.com/watch?v=fl9V0U2SGeI )를 발견했습니다. 그것은 당신이 정확하게 질문에 대답하는 것처럼 들립니다.
Nathan Nathan

또한 연구의 기초가되는 것은 매우 반사적이고 빠르게 움직이고 지속적인 반복 테스트가 필요하다는 점에 주목할 가치가 있습니다. 새로운 사이트, 표준 및 스타일이 나타나면 레이아웃, 색상, 버튼 등이 빠르게 움직입니다. 또한 높은 수준의 조합 문제 (이 버튼은 배경색 등을 약간 조정하여 다른 결과를 반환 할 수 있음). 결과적으로 유의 수준에 관계없이 결과가 매우 강해 보일지라도 결과에 대해 '진정한'신뢰 수준을 가질 수는 없습니다.
Philip

답변:


11

나는 당신이 찾고있는 개념이 순차적 분석이라고 생각합니다. 이 사이트에는 유용한 순차 분석을위한 p- 값 조정 (카이 제곱 테스트의 경우) 이라는 용어가 태그되어 있습니다 . 시작하는 곳이 될 것입니다. Wikipedia 기사를 참조 하십시오 . 또 다른 유용한 검색어는 알파 지출이며, 반복되는 각 모양을 취할 때 알파의 일부 (의의 수준)를 사용하는 것으로 간주해야한다는 사실에서 비롯됩니다. 다중 비교를 고려하지 않고 데이터를 계속 엿 보면 질문에서 간략하게 설명하는 문제가 발생합니다.


고마워, 그것은 좋은 독서 권장 사항입니다. 나는 다른 방법으로 무엇을 찾아야할지조차 몰랐다. 이것을 소비합니다.
Tech 75

5

그러면 실험이 결정적인 시점은 언제입니까?

나는 이것이 생각의 오류가있는 곳이라고 생각합니다. "연역적으로 인과 관계를 증명한다"는 의미에서 실험이 "결론적"일 수있는 시점은 없습니다. 통계 테스트가 포함 된 실험을 수행 할 때는 충분하다고 생각되는 증거에 대해 헌신해야합니다.

통계적으로 건전한 실험 절차를 통해 알려진 오 탐지율과 오 탐지율의 결과를 얻을 수 있습니다. 유의성에 대한 임계 값으로 0.05를 사용하는 절차를 선택한 경우 실제로 차이가없는 경우의 5 %에서 해당 절차를 기꺼이 받아 들일 것이라고 말하면 테스트에서 차이가 있음을 알려줍니다.

설명 된 방식으로 절차를 벗어나는 경우 (정지 점을 미리 선택하지 말고 계산 된 p- 값이 0.05 미만으로 떨어질 때까지 테스트를 실행하거나 긍정적 인 결과를 얻을 때까지 전체 실험을 여러 번 실행하십시오. 등) 에 따라 실제로 차이가 없을 때 차이가 있음을 테스트에서 확인할 가능성높아 집니다. 당신은 그것을 만들고있는 가능성 이 효과적이었다 변경 사항을 생각에 속지 것이다. 자신이 속지 않도록하십시오.

이 백서 읽기 : 부정적 심리학 데이터 수집 및 분석의 공개되지 않은 유연성으로 모든 것을 의미있는 것으로 제시

설명하는 정확한 시나리오 (실험을 중단 할시기를 모르는 경우)를 포함하여 사용자가 속일 가능성이 높은 테스트 절차를 부적절하게 방해 할 수있는 몇 가지 방법을 강조합니다.

다른 답변은 이러한 문제 (순차 분석, 다중 비교를위한 Bonferroni 수정)를 완화 할 수있는 솔루션을 제공합니다. 하지만 그 솔루션 반면, 일반적으로 실험의 전력을 감소 그들이 때 덜 차이를 감지하고, 거짓 양성 속도를 제어 할 수 존재합니다.


다른 오류가 있습니다. "99 % 유의성에 대한 메트릭의 10 % 개선"에 대해 이야기합니다. 유의성 검정 은 표본에서 관측 된 차이가 실제 근본 차이에 의한 것인지 아니면 임의 노이즈에 의한 것인지 여부 만 알려줍니다 . 차이의 실제 크기에 대한 신뢰 구간을 제공하지 않습니다.


3

나는 당신이 여기에 잘못된 질문을하고 있다고 생각합니다. 당신이 묻는 질문은 통계 테스트에 관한 것입니다. 올바른 질문은 "시간이 지남에 따라 효과가 변하는 이유는 무엇입니까?"라고 생각합니다.

전환을 위해 0/1 변수를 측정하고 있다면 (구매 한 적이 있습니까?) 초기 세션에서 구매하지 않은 사람들이 다시 와서 나중에 구매할 수 있습니다. 이는 전환율이 시간이 지남에 따라 증가하고 고객이 처음 방문 할 때 이후 방문과는 달리 효과가 사라진다는 것을 의미합니다.

즉, 첫째 제대로 무엇을 당신에 대해 다음, 걱정을 측정하는 방법 당신이 측정된다.


3

이것이 바로 시험 전에 명확한 기준을 정의해야하는 이유입니다. @mdewey는 시험을 주기적으로 평가하기위한 확립 된 방법이 있지만 이들 모두는 결정에 대한 혼란을 막기 위해 명확한 중지 기준이 필요합니다. 두 가지 중요한 문제는 여러 비교를 수정해야하며 각 분석이 독립적이지 않지만 그 결과는 이전 분석 결과에 크게 영향을받는 것입니다.

대안으로 상업적으로 관련된 인수를 기반으로 설정된 샘플 크기를 정의하는 것이 가장 좋습니다.

먼저 회사는 상업적으로 관련된 전환율 변화가 무엇인지 (즉, 변경이 영구적으로 배포되기 위해 상업적인 사례를 만들려면 어떤 크기의 차이가 필요한지)에 동의해야합니다. 이에 동의하지 않으면 합리적인 벤치 마크가 없습니다.

상업적으로 관련된 최소 효과 크기가 결정되면 (테스트되는 단계의 중요도에 따라 사례별로 변경 될 수 있음) 회사는 실제 효과 누락에 대해 기꺼이 수용 할 위험 수준에 동의합니다 ( 베타) 및 허위 효과 (알파)를 수용하기위한 것.

이 숫자가 샘플 크기 계산기와 짜잔에 연결되면 결정을 위해 설정된 샘플 크기를 갖게됩니다.


편집하다

작은 표본 크기를 사용하고 그것들이 충분히 큰 효과를 발휘할 것이라는 희망은 잘못된 경제입니다 (학술 출판물에 논란의 여지가있는 가설을 제시하는 것이 아니라 목표가 신뢰할만한 결과이기 때문에). 편견없는 샘플링을 가정하면, 낮은 표본 크기에서 반대편 극단으로 향하는 모든 표본을 무작위로 선택할 확률은 높은 표본 크기보다 높습니다. 이것은 실제로 차이가 없을 때 귀무 가설을 기각 할 가능성이 더 높습니다. 따라서 이는 실제로 실제 영향을 미치지 않거나 약간 부정적인 영향을 미치게되는 변경 사항을 추진하는 것을 의미합니다. @Science가 말할 때 설명하는 다른 방법입니다.

"실제로 차이가 없을 때 차이가 존재 함을 테스트에서 확인할 가능성이 높습니다"

통계 분석을 미리 지정하는 요점은 (내가 설명하는 고정 표본 크기 또는 다중 평가 전략에 관계없이) 유형 I 및 II 오류의 요구를 적절히 균형 맞추는 것입니다. 현재 전략은 유형 I 오류에 초점을 맞추고 유형 II를 완전히 무시하는 것으로 보입니다.

다른 많은 응답자들이 결과가 확정적이지 않다고 말했지만, 유형 I 및 II 오류와 비즈니스에 미치는 영향을 모두 고려했다면 결과를 기반으로 변경 사항을 구현할지 여부를 가장 확신 할 수 있습니다. 결국 의사 결정은 위험 수준에 익숙하고 '사실'을 불변으로 취급하지 않는 것입니다.

나는 당신이 보는 결과에 영향을 줄 수있는 연구 디자인의 다른 측면에 흥미를 느낍니다. 그들은 당신이 원하지 않는 몇 가지 미묘한 요소를 드러내고 있습니다.

샘플에 대해 모든 신규 방문자, 모든 재 방문자 또는 미분화 대상으로 선정 되었습니까? 기존 고객은 새로운 것을 추구하는 경향이 증가 할 수 있지만 (특정한 색상이 아닌 변화를 향한 편견) 새로운 고객에게는 모든 것이 새로운 것입니다.

연구 기간 내에 실제 사람들이 재발을합니까?

사람들이 연구 기간 동안 여러 번 방문하면 동일한 버전이 제공되거나 무작위로 무작위로 할당됩니까?

재발 방문자가 포함되면 노출 피로의 위험이 있습니다 (더 이상 새로운 것이 아니기 때문에 산만하지 않습니다)


고마워 상업적으로 관련있는 전환 변경을 사전에 동의하는 데 큰 도움이됩니다. 그러나 전자 상거래와 마찬가지로 전환의 작은 변화는 판매에 영향을 줄 수 있으며 이는 매우 낮은 가치가 될 것입니다.
Tech 75

작은 것이 필요한 최소 차이는 문제가되지 않으며 적절한 전원 공급을 보장합니다.
ReneBt

0

일반적으로 표본 크기를 먼저 결정하고 (가설 검정의 통계적 검정력을 제어하기 위해) 실험을 수행해야합니다.

현재 위치에 따라 일련의 가설 테스트를 결합한 것처럼 들립니다. Fisher의 방법을 살펴 보는 것이 좋습니다. 또한 Fisher의 방법을 종속 테스트 통계에 수용하기위한 Brown 또는 Kost의 방법을보고 싶을 것입니다. 다른 응답자가 언급했듯이, 고객의 전환 (또는 비 전환)은 버튼의 색상에 관계없이 다음 방문시 구매 여부에 영향을 미칩니다.

사후 생각 :

  1. Fisher의 방법 및 확장에 대한 자세한 정보와 소스는 Fisher의 방법에 대한 Wikipedia 기사에서 찾을 수 있습니다.
  2. 실험이 실제로 결정적 이지 않다는 것을 언급하는 것이 중요하다고 생각합니다 . 작은 p- 값은 결과가 확정적이라는 것을 나타내지 않습니다. 귀무 가설이 획득 한 데이터를 기반으로하지 않을 것입니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.