단면 t- 검정 결과가 중요하지만 표본 크기가 작은 경우 (예 : 20 이하)이 결과를 여전히 신뢰할 수 있습니까? 그렇지 않다면 어떻게이 결과를 다루거나 해석해야합니까?
단면 t- 검정 결과가 중요하지만 표본 크기가 작은 경우 (예 : 20 이하)이 결과를 여전히 신뢰할 수 있습니까? 그렇지 않다면 어떻게이 결과를 다루거나 해석해야합니까?
답변:
이론적으로 t- 검정의 모든 가정이 사실이라면 작은 표본 크기에는 아무런 문제가 없습니다.
실제로 우리는 큰 표본 크기에 대해 벗어날 수 있지만 실제로는 작은 표본 크기에 문제를 일으킬 수있는 매우 가정하지 않은 가정이 있습니다. 기본 분포가 정상적으로 분포되어 있는지 알고 있습니까? 모든 표본이 독립적이고 동일하게 분포되어 있습니까?
테스트의 유효성을 의심하는 경우 사용할 수있는 대안은 부트 스트랩입니다. 부트 스트랩에는 귀무 가설이 얼마나 자주 참인지 거짓인지 확인하기 위해 샘플에서 리샘플링하는 과정이 포함됩니다. 귀무 가설이 이고 p- 값이 0.05이지만 부트 스트랩은 표본 평균이 시간의 0 % 미만임을 나타냅니다. 이는 p- 값이 0.05 인 원인 일 수 있으며 귀무 가설이 거짓이라는 확신이 적어야합니다.
하나의 중요한 결과를 믿지 않아도됩니다. 왜 양측 테스트 대신 단측 테스트를 사용하고 있는지 말하지 않았으므로 통계적으로 유의미한 결과를 주장하기 위해 고군분투하는 것 이외의 다른 이유가 있기를 바랍니다.
이를 제외하고 p.에서 다음을 고려하십시오. 《Sauro, J., & Lewis, JR》 (2016). 사용자 경험 정량화 : 사용자 연구 실용 통계, 2nd Ed .. Cambridge, MA : Morgan-Kaufmann.
Ronald Fisher가 p- 값 사용을 권장 한 방법
칼 피어슨 (Karl Pearson)이 통계의 웅장한 노인이자 로널드 피셔 (Ronald Fisher)는 피셔의 아이디어와 수학적 능력에 의해 위협받는 것으로 보이는 피어슨 (Pearson)은 피셔가 당시 주요 통계 저널 인 Biometrika and the Journal에 게재하는 것을 막기 위해 그의 영향력을 사용했습니다. 왕립 통계 협회. 결과적으로 Fisher는 자신의 아이디어를 심리 연구 학회 논문집을 포함하여 농업 및 기상 저널과 같은 다양한 장소에 발표했습니다. 이 후자의 저널에 대한 논문 중 하나에서 그는 이제 우리가 수용 할 수있는 제 1 종 오류 (알파)를 0.05로 설정하는 규칙을 언급했으며, 예상치 못한 중요한 결과가 발생할 때 재현성의 중요성을 언급했습니다.
우리가 찾고있는 종류의 실제 원인이없는 경우, 거의 생산되지 않았을 경우, 관측 결과는 중요하다고 판단됩니다. 결과가 20 번의 시험에서 한 번 이상 우연히 발생했을 정도의 크기이면 결과를 중요하게 판단하는 것이 일반적입니다. 이것은 실제 수사관에게 임의적이지만 편리한 수준의 중요성이지만, 그가 20 번의 실험마다 한 번 자신을 속이는 것을 의미하지는 않습니다. 유의성 테스트는 무시할 대상, 즉 중요한 결과를 얻지 못한 모든 실험을 알려줍니다. 그는 실험을 설계하는 방법을 알면 실험 결과를 입증 할 수 있다고 주장해야한다. 따라서, 재생산 방법을 모르는 중요한 결과는 추가 조사가 진행되는 동안 중단되었다. (Fisher, 1929, 191 쪽)
참고
피셔, RA (1929). 심리 연구의 통계적 방법. 심리 연구 학회지, 39, 189-192.
널 (null)의 일부가 사실 인 상황에서 유사한 테스트를 많이 수행하는 상황에 있다고 상상해보십시오.
"거의"거부율은 어느 정도입니까?
올바른 거부 비율이 적은 수를 초과하려면 상황을 피해야합니다.
따라서 표본 크기가 작을 때 (따라서 검정력이 낮을 때), 합리적인 비율의 널 (null)이 참이면, 우리는 종종 거부 할 때 오류가 발생합니다.
거의 모든 null이 엄격하게 거짓이면 상황이 훨씬 나아지지 않습니다. 거의 대부분의 거절은 정확합니다 (사소한 영향은 여전히 엄격하지 않기 때문에). 거부는 "잘못된 방향으로"될 것입니다. 우연히 샘플이 잘못된쪽에있는 것으로 판명 되었기 때문에 null이 종종 거짓이라는 결론을 내릴 것입니다. 의미-큰 표본 크기를 얻기가 어려운 경우에는 의미가없는 거부를 피해야합니다.
작은 표본 크기가 확실히 문제가 될 수 있음을 알 수 있습니다.
[이 잘못된 비율의 거부를 허위 발견 률 이라고합니다 ]
효과 크기에 대한 개념이 있다면 적절한 표본 크기가 무엇인지 판단하는 것이 좋습니다. 예상되는 효과가 크면 표본 크기가 작은 거부가 반드시 주요 관심사는 아닙니다.
t 테스트를 개발 한 Gosset의 원래 작업 (일명 Student) 중 일부는 n = 4 및 5의 효모 샘플과 관련이있었습니다.이 테스트는 매우 작은 샘플을 위해 특별히 설계되었습니다. 그렇지 않으면 정규 근사치가 좋습니다. 즉, Gosset은 자신이 잘 이해 한 데이터에 대해 매우 신중하고 통제 된 실험을하고있었습니다. 양조장에서 테스트해야 할 수에는 제한이 있으며 Gosset은 기네스에서 근무 생활을 보냈습니다. 그는 자신의 데이터를 알고있었습니다.
일방적 인 테스트에 중점을두고 있습니다. 테스트의 논리는 가설에 관계없이 동일하지만 양면이 중요하지 않은 경우 사람들이 중요한 단측 테스트를 수행하는 것을 보았습니다.
이것이 (위) 일방적 인 테스트가 의미하는 바입니다. 평균이 0인지 테스트하고 있습니다. 수학을 수행하고 T> 2.5 인 경우 거부 할 준비가되었습니다. 실험을 실행하고 T = -50,000 인 것을 관찰하십시오. 당신은 "phhhhht"라고 말하고 인생은 계속됩니다. 검정 통계량이 가정 된 모수 값 아래로 가라 앉는 것이 물리적으로 불가능하지 않은 한, 검정 통계량이 예상과 반대 방향으로 진행되는 경우 어떠한 결정도 취하지 않는 한, 양측 검정을 사용해야합니다.
걱정해야 할 것은 테스트의 힘입니다. 특히, 표본 크기를 고려할 때 합리적인 크기의 실제 효과를 확인하기 위해 사후 검정력 분석을 수행 할 수 있습니다. 전형적인 효과가 매우 크면 (분자 생물학의 많은 실험에서와 같이) n 이 8 이면 충분할 수 있습니다. 관심있는 효과는하지만 (많은 사회 심리학 실험에서와 같이), 일반적으로 미묘한 경우, n은 수천 여전히 파워 부족 될 수 있습니다.
저전력 테스트는 잘못된 결과를 초래할 수 있으므로 중요합니다. 예를 들어, 테스트에 전력이 부족한 경우 중요한 결과를 찾더라도 Andrew Gelman이 "Type S"오류라고 부르는 확률이 상대적으로 높습니다. 즉, 실제 효과는 있지만 반대 방향으로 작용합니다. 또는 "Type M"오류, 즉 실제 효과가 있지만 실제 크기는 데이터에서 추정 된 것보다 훨씬 약합니다.
Gelman과 Carlin은 귀하의 경우에 적용되는 사후 전력 분석에 관한 유용한 논문을 작성했습니다 . 중요한 것은 독립된 데이터 (즉, 테스트 한 데이터가 아니라 검토, 모델링, 유사한 실험 결과 등)를 사용하여 실제 효과 크기를 추정하는 것이 좋습니다. 추정 가능한 실제 효과 크기를 사용하고 결과와 비교하여 검정력 분석을 수행하면 유형 S 오류가 발생할 확률과 일반적인 "과장 비율"을 파악할 수 있으므로 증거가 실제로 얼마나 강력한 지 더 잘 이해할 수 있습니다.
통계적 중요성의 요점은 "샘플 크기를 감안할 때이 결과를 신뢰할 수 있습니까?"라는 질문에 대답하는 것이라고 말할 수 있습니다. 다시 말해, 요점은 작은 샘플 크기로 실제 효과가 없을 때 플루크를 얻을 수 있다는 사실을 제어하는 것입니다. 통계적으로 의의, 즉 p- 값은 "실제 효과가 존재하지 않는다면이 정도의 큰 타격을 입을 가능성은 얼마나 될까?"라는 질문에 대한 답입니다. 매우 가능성이 낮다면 이는 이것이 우연이 아님을 나타냅니다.
대답은 "예"입니다 그래서 P 값이 낮은, 경우, 그리고 정확한 통계 절차를 따랐다 및 관련 가정을 만족하는 경우, 다음 네, 좋은 증거이며, 같은 무게를 가지고있는 것처럼 당신은 좋겠 매우 큰 표본 크기로 동일한 p- 값을 얻었습니다.