회사에서 A / B 테스트 결과 (웹 사이트 변형으로 실행)를 발표 할 책임이 있습니다. 우리는 한 달 동안 테스트를 실행하고 우리가 의미에 도달 (또는 의미가 오랜 시간 동안 테스트를 실행 한 후 도달하지 않은 경우 포기) 할 때까지, 지금 알아내는하고 뭔가가있다 일정한 간격의 p 값을 확인 잘못된 관행 .
나는 지금이 관행을 멈추고 싶지만 그렇게하려면 왜 이것이 잘못되었는지 이해하고 싶다. I는 이해 효과의 크기는 샘플 크기 (N)는, 알파 의미 기준치 (α) 및 통계 전력 또는 선택 또는 묵시적 베타 (β)은 수학적으로 관련되어있다. 그러나 필요한 샘플 크기에 도달하기 전에 테스트를 중단하면 정확히 무엇이 달라 집니까?
나는 여기에 몇 개의 게시물을 읽었으며 (즉, this , this 및 this ) 그들은 내 추정치가 치우 치며 Type 1 오류의 비율이 극적으로 증가한다고 말합니다. 그러나 어떻게 이런 일이 발생합니까? 결과에 대한 표본 크기의 영향을 분명히 보여주는 수학적 설명을 찾고 있습니다. 위에서 언급 한 요인 간의 관계와 관련이 있다고 생각하지만 정확한 공식을 찾아 내 스스로 해결할 수는 없었습니다.
예를 들어, 테스트를 조기에 중지하면 유형 1 오류율이 증가합니다. 좋구나. 그런데 왜? 유형 1 오류율이 증가하면 어떻게됩니까? 나는 직관이 빠졌습니다.
도와주세요.