연구에 힘이 넘친다는 것은 무엇을 의미합니까?


11

연구에 힘이 넘친다는 것은 무엇을 의미합니까?

제 인상은 샘플 크기가 너무 커서 마이너 스컬 효과 크기를 감지 할 수 있다는 것입니다. 이러한 효과 크기는 아마도 너무 작아서 변수 사이의 (직접적인 것은 아니지만) 인과 적 연결보다 샘플링 과정에서 약간의 편향으로 인해 발생할 가능성이 높습니다.

이것이 올바른 직관입니까? 그렇다면 결과가 그 빛으로 해석되고 추정 효과 크기가 "의미"할 정도로 충분히 큰지 수동으로 확인하고 확인하는 한 큰 문제가 무엇인지 알 수 없습니다.

뭔가 빠졌습니까? 이 시나리오에서 수행 할 작업에 대한 더 나은 권장 사항이 있습니까?


이 용어를 직관적으로 이해하는 것과 같습니다.
Henrik

답변:


11

귀하의 해석이 잘못되었다고 생각합니다.

"이러한 효과 크기는 아마도 변수 사이의 (직접적인 것은 아니지만) 인과 적 연결보다 샘플링 과정에서 약간의 편향으로 인해 발생할 가능성이 매우 작습니다." 연구는 '적절하게'강화 된 연구의 P 값과 같은 것이 아닙니다. 그건 잘못이야 두 경우 모두 P 값은 귀무 가설이 참인 경우 관측 된 것보다 극한이거나 더 극단적 인 데이터를 얻을 확률입니다.

Neyman-Pearson 접근 방식을 선호하는 경우 '과잉 전원'스터디에서 얻은 오 탐지율은 동일한 알파 값이 둘 다에 사용되는 경우 '적절한'전원 공급 스터디와 동일합니다.

필요한 해석의 차이는 과잉 연구에 대한 통계적 중요성과 과학적 중요성 사이에 다른 관계가 있다는 것입니다. 실제로, 과잉 연구는 효과가 미미하지만 의심 할만한 중요성이 있더라도 의미를 얻을 가능성이 크다.

'과잉 된'연구 결과가 적절하게 해석되고 (효과 크기에 대한 신뢰 구간이 그러한 해석에 도움이되는 한) '과잉 된'연구에는 통계적 문제가 없습니다. 그러한 관점에서, 연구가 실제로 과도하게 강화 될 수있는 유일한 기준은 다른 답변에서 제기 된 윤리 및 자원 할당 문제입니다.


고마워, 이것은 매우 유익합니다. p- 값 정의가 변경되지 않는다는 것을 이해합니다. 통계적인 관점에서 볼 때, 제 1 종 오류율은 증가하지 않습니다.
Frank Barry

1
정의에 따라 p- 값 임계 값을 설정할 때 제 1 종 오류율을 수정했습니다. 그러나 여기서 "통계"와 "실제"의 차이가 문제인 것 같습니다. 표본 크기가 예상 효과 크기보다 훨씬 미세한 차이를 감지 할 수있는 경우 통계적으로 정확하게 구별되는 차이는 실제로 의미가 없습니다 ( "최종 사용자"의 관점에서 볼 때 이는 실제로 "거짓 양성"임) 통계적인 것이 아닙니다). 그러나 당신이 말했듯이 이것은 통계의 영역을 벗어나기 시작합니다.
Frank Barry

1
즉, 나는 동의한다고 생각한다- "필요한 해석의 차이는 통계적 중요성과 과학적 중요성 사이에 다른 관계가 있다는 것이다"
Frank Barry

4

의료 연구에서 너무 많은 환자를 모집하면 비 윤리적 일 수 있습니다. 예를 들어 어떤 치료가 더 나은지 결정하는 것이 목표라면 열등한 것으로 판명 된 후 치료가 더 나쁜 환자를 치료하는 것이 더 이상 윤리적이지 않습니다. 물론 샘플 크기를 늘리면 효과 크기를보다 정확하게 추정 할 수 있지만 "샘플링 프로세스에서 약간의 바이어스"와 같은 요소의 효과가 나타나기 전에 중지해야 할 수도 있습니다.

충분히 확증 된 연구로 공공 자금을 사용하는 것도 비 윤리적 일 수 있습니다.


1

당신이 말한 모든 것이 의미가 있습니다 (그러나 당신이 말하는 "큰 거래"를 모릅니다). 통계적 유의성과 반대되는 효과 크기에 대한 요점처럼 말입니다. 또 다른 고려 사항은 일부 연구에서는 각 사례의 참여를 얻기 위해 부족한 자원을 할당해야하므로이를 과도하게 사용하고 싶지 않다는 것입니다.


죄송합니다, "큰 거래"는 너무 많은 편집자 의견입니다. 그것이 내가 만드는 것보다 "더 큰 거래"인지에 대한 질문은 기본적으로 내가 무지 할 수있는 추가 고려 사항이 있는지에 대한 질문입니다.
Frank Barry

0

제 경험은 온라인 A / B 실험에서 비롯된 것으로서,이 문제는 대개 연구에 힘이 실리거나 잘못된 것을 측정합니다. 그러나 지나치게 강력한 연구는 비교 가능한 연구보다 더 좁은 신뢰 구간, 더 낮은 p- 값 및 다른 분산을 생성하는 것으로 보입니다. 비슷한 연구를 비교하기가 더 어려울 수 있다고 생각합니다. 예를 들어, 적절한 검정력을 사용하여 지나치게 강력한 연구를 반복하면 효과를 정확하게 재현하더라도 p- 값이 높아집니다. 더 큰 표본에 나타날 확률이 더 높은 특이 치가있는 경우 표본 크기가 증가하면 변동성이 고르지 않거나 변동성이 발생할 수 있습니다.

또한 시뮬레이션 결과에 따르면 관심있는 효과 이외의 효과는 더 큰 샘플에서 중요 할 수 있습니다. 따라서 p- 값은 결과가 실제 일 확률을 정확하게 알려주지 만, 결과의 조합, 우연한 조합, 통제하지 않은 일부 일시적 영향 및 아마도 다른 것 당신이 그것을 실현하지 않고 도입 작은 효과. 연구가 약간 과장된 경우이 위험은 낮습니다. 문제는 종종 기준 지표와 최소 목표 효과가 예상치와 다른 것으로 판명 될 경우와 같이 적절한 힘을 알기가 어렵습니다.

또한 너무 큰 표본이 ​​적합도 검정을 결과가 중요하지 않은 편차에 너무 민감하게 만들어 반 직관적 인 결과를 초래할 수 있다고 주장 하는 기사 를 보았습니다 .

즉, 저전력보다는 높은쪽으로 잘못하는 것이 가장 좋다고 생각합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.