제 경험은 온라인 A / B 실험에서 비롯된 것으로서,이 문제는 대개 연구에 힘이 실리거나 잘못된 것을 측정합니다. 그러나 지나치게 강력한 연구는 비교 가능한 연구보다 더 좁은 신뢰 구간, 더 낮은 p- 값 및 다른 분산을 생성하는 것으로 보입니다. 비슷한 연구를 비교하기가 더 어려울 수 있다고 생각합니다. 예를 들어, 적절한 검정력을 사용하여 지나치게 강력한 연구를 반복하면 효과를 정확하게 재현하더라도 p- 값이 높아집니다. 더 큰 표본에 나타날 확률이 더 높은 특이 치가있는 경우 표본 크기가 증가하면 변동성이 고르지 않거나 변동성이 발생할 수 있습니다.
또한 시뮬레이션 결과에 따르면 관심있는 효과 이외의 효과는 더 큰 샘플에서 중요 할 수 있습니다. 따라서 p- 값은 결과가 실제 일 확률을 정확하게 알려주지 만, 결과의 조합, 우연한 조합, 통제하지 않은 일부 일시적 영향 및 아마도 다른 것 당신이 그것을 실현하지 않고 도입 작은 효과. 연구가 약간 과장된 경우이 위험은 낮습니다. 문제는 종종 기준 지표와 최소 목표 효과가 예상치와 다른 것으로 판명 될 경우와 같이 적절한 힘을 알기가 어렵습니다.
또한 너무 큰 표본이 적합도 검정을 결과가 중요하지 않은 편차에 너무 민감하게 만들어 반 직관적 인 결과를 초래할 수 있다고 주장 하는 기사 를 보았습니다 .
즉, 저전력보다는 높은쪽으로 잘못하는 것이 가장 좋다고 생각합니다.