나는 다음 두 가지 아이디어에 대해 큰 범죄를 저지 릅니다.
표본이 클수록 귀무 가설에서 작고 중요하지 않은 이탈에 대한 유의성 테스트가 시작됩니다.
현실 세계에서는 거의 귀무 가설이 사실이 아니므로, 유의성 검정을 수행하는 것은 터무니없고 기괴합니다.
p- 값에 대한 그러한 밀짚 꾼 논쟁입니다. 통계 개발에 동기를 부여한 근본적인 문제는 추세를보고 우연히보고 있는지 또는 체계적인 추세를 나타내는 지 알고 싶어하는 것입니다.
이를 염두에두고 통계 학자로서 일반적으로 귀무 가설이 참이라고 믿지 않는 것이 사실입니다 (예 : , 여기서 는 두 그룹 간의 일부 측정의 평균 차이). 그러나 양측 검정을 사용하면 어떤 대체 가설이 참인지 알 수 없습니다! 양면 테스트 에서 데이터를보기 전에 을 100 % 확신한다고 기꺼이 말할 수 있습니다 . 그러나 또는 인지는 알 수 없습니다 . 따라서 실험을 수행하고 이라고 결론을 , 우리는 거부했지만 ( 가 말할 수 있듯이 쓸모없는 결론) 더 중요 거부했습니다μ d μ d ≠ 0 μ d > 0 μ d < 0 μ d > 0 μ d = 0 μ d < 0Ho:μd=0μdμd≠0μd>0μd<0μd>0μd=0μd<0 (유용한 결론). @amoeba가 지적한 바와 같이, 이는 약물이 긍정적 인 영향을 미치는지 여부를 테스트하는 것과 같이 양면으로 될 가능성이있는 단면 테스트에도 적용됩니다.
이것이 효과의 크기를 나타내지 않는 것은 사실입니다. 그러나 효과의 방향을 알려줍니다. 카트를 말 앞에 두지 마십시오. 효과의 크기에 대한 결론을 그리기 전에 효과의 방향이 정확하다는 확신을 갖고 싶습니다!
마찬가지로, "p- 값이 작고 중요하지 않은 영향에 영향을 미친다"는 주장은 상당히 잘못된 것 같습니다. 데이터가 결론 의 방향 을 얼마나 지원하는지에 대한 척도로서 p- 값을 생각한다면 물론 표본 크기가 충분히 클 때 작은 효과를 취하기를 원합니다. 이것이 유용하지 않다는 것을 의미하는 것은 나에게는 매우 이상합니다. p- 값으로 고통받은 이러한 연구 분야는 추정치의 신뢰성을 평가할 필요가없는 많은 데이터를 가진 것과 같은 것들입니까? 마찬가지로, 문제가 실제로 p- 값이 "작은 효과 크기로 는 경우 가설 및 간단히 테스트 할 수 있습니다H 2 : μ D < - 1H1:μd>1H2:μd<−1(1이 최소 중요 효과 크기라고 생각한다고 가정). 이것은 종종 임상 시험에서 수행됩니다.
이것을 더 설명하기 위해 신뢰 구간과 p- 값을 버렸다고 가정 해 봅시다. 신뢰 구간에서 가장 먼저 확인해야 할 것은 무엇입니까? 결과를 너무 심각하게 받아들이 기 전에 효과가 엄격하게 긍정적인지 부정적인지 여부 따라서 p- 값이 없어도 비공식적으로 가설 검정을 수행합니다.
마지막으로 OP / Matloff의 요청에 대해, "p- 값에 대한 설득력있는 주장이 상당히 나아진다"는 질문은 조금 어색하다고 생각합니다. 나는 이것이 당신의 관점에 따라 자동으로 응답하기 때문에 ( "가설을 테스트하지 않는 것보다 낫다는 구체적인 예를 하나 들어주십시오") 때문에 이것을 말합니다. 그러나 거의 부인할 수 없다고 생각되는 특별한 경우는 RNAseq 데이터의 경우입니다. 이 경우, 우리는 일반적으로 두 개의 다른 그룹 (즉, 병에 걸린 대조군)에서 RNA의 발현 수준을보고 두 그룹에서 차등 적으로 발현되는 유전자를 찾으려고 노력하고있다. 이 경우 효과 크기 자체는 실제로 의미가 없습니다. 다른 유전자의 발현 수준이 매우 다양하여 일부 유전자의 경우 2 배 더 높은 발현을 나타내는 것은 아무 의미가 없기 때문입니다. 다른 엄격하게 조절 된 유전자에서는 1.2 배 더 높은 발현이 치명적입니다. 따라서 그룹을 처음 비교할 때 효과 크기의 실제 크기는 실제로 다소 흥미롭지 않습니다. 하지만 당신은정말로, 유전자의 발현이 그룹과 변화의 방향 사이에서 변화하는지 알고 싶습니다! 또한 p- 값보다 신뢰 구간을 사용하여 여러 번의 비교 (단일 실행으로 20,000 회 수행 할 수 있음) 문제를 해결하는 것이 훨씬 더 어렵습니다.