표본 크기가 작은 경우 t- 검정의 중요한 결과를 신뢰할 수 있습니까?


17

단면 t- 검정 결과가 중요하지만 표본 크기가 작은 경우 (예 : 20 이하)이 결과를 여전히 신뢰할 수 있습니까? 그렇지 않다면 어떻게이 결과를 다루거나 해석해야합니까?



8
단지 의견입니다. 아래의 멋진 의견에 추가하고 싶지 않습니다. t- 검정 결과를 신뢰하지 않고 절차 자체를 신뢰합니다. 개별 결과는 정확하거나 부정확하지만 추가 조사 없이는 어떤 결과도 알 수 없습니다. Fisher의 방법론 또는 Pearson and Neyman의 방법론 중 t- 검정은 가정이 충족되면 신뢰할 수 있습니다. 를 설정 하면 무한 반복시 5 %를 넘지 않는 범위 내에서 속일 것입니다. 당신이 물어야 할 질문은 "가정이 충족 되었습니까?"입니다. α<.05
Dave Harris

답변:


15

이론적으로 t- 검정의 모든 가정이 사실이라면 작은 표본 크기에는 아무런 문제가 없습니다.

실제로 우리는 큰 표본 크기에 대해 벗어날 수 있지만 실제로는 작은 표본 크기에 문제를 일으킬 수있는 매우 가정하지 않은 가정이 있습니다. 기본 분포가 정상적으로 분포되어 있는지 알고 있습니까? 모든 표본이 독립적이고 동일하게 분포되어 있습니까?

테스트의 유효성을 의심하는 경우 사용할 수있는 대안은 부트 스트랩입니다. 부트 스트랩에는 귀무 가설이 얼마나 자주 참인지 거짓인지 확인하기 위해 샘플에서 리샘플링하는 과정이 포함됩니다. 귀무 가설이 이고 p- 값이 0.05이지만 부트 스트랩은 표본 평균이 시간의 0 % 미만임을 나타냅니다. 이는 p- 값이 0.05 인 원인 일 수 있으며 귀무 가설이 거짓이라는 확신이 적어야합니다.μ<0


1
예를 들어, 근본 분포가 대략 정규 분포이고 표본 10 개가 모두 특정 값보다 작다는 것을 알고 있다면, 모집단 평균이 해당 값보다 클 확률은 2 ^ 10에서 최대 1이며, 또는 천에서 하나. 정규 분포 모집단의 표본 10 개가 모두 평균의 같은쪽에있을 ​​확률은 2 ^ 10의 1입니다. 문제는 신뢰할만한 결과를 얻을 것이지만 "평균 성인 남성의 키는 거의 5 ~ 7 피트 사이"와 같이 매우 약합니다.
David Schwartz

설명과 다른 접근 방식에 감사드립니다. 정말 감사합니다! 많은 감사합니다!
Eric

나는 당신의 부트 스트랩 제안을 얻지 못한다. 샘플 (p <0.05)에서 리샘플링하면 대부분의 부트 스트랩 리샘플링에서 5 ~ 10 %가 아닌 95 % 정도의 중요한 결과를 기대할 수 있습니다. 자세히 설명해 주시겠습니까? Cc에서 @Eric.
amoeba는

3
보다 일반적인 말로 부트 스트랩은 큰 샘플에서는 잘 작동하지만 작은 샘플에서는 적용 범위가 공칭과 약간 다를 수 있습니다. 또한 표본 크기가 매우 낮 으면 검정력이 떨어집니다. 따라서 "부트 스트랩 테스트"가 항상 t- 테스트보다 우수하다는 것은 아닙니다.
amoeba는

3
@amoeba 나는 당신의 교정 스타일을 정말로 좋아합니다. 옳고 그른 것이 무엇인지 말한 것이 아니라 내 아이디어의 이상한 결과를 지적하고 내 대답을 다시 생각하고 내 실수의 원인을 이해하게 만들었습니다. 감사합니다! 과거에 Whuber도이 작업을 수행했습니다
Hugh

21

하나의 중요한 결과를 믿지 않아도됩니다. 왜 양측 테스트 대신 단측 테스트를 사용하고 있는지 말하지 않았으므로 통계적으로 유의미한 결과를 주장하기 위해 고군분투하는 것 이외의 다른 이유가 있기를 바랍니다.

이를 제외하고 p.에서 다음을 고려하십시오. 《Sauro, J., & Lewis, JR》 (2016). 사용자 경험 정량화 : 사용자 연구 실용 통계, 2nd Ed .. Cambridge, MA : Morgan-Kaufmann.


Ronald Fisher가 p- 값 사용을 권장 한 방법

칼 피어슨 (Karl Pearson)이 통계의 웅장한 노인이자 로널드 피셔 (Ronald Fisher)는 피셔의 아이디어와 수학적 능력에 의해 위협받는 것으로 보이는 피어슨 (Pearson)은 피셔가 당시 주요 통계 저널 인 Biometrika and the Journal에 게재하는 것을 막기 위해 그의 영향력을 사용했습니다. 왕립 통계 협회. 결과적으로 Fisher는 자신의 아이디어를 심리 연구 학회 논문집을 포함하여 농업 및 기상 저널과 같은 다양한 장소에 발표했습니다. 이 후자의 저널에 대한 논문 중 하나에서 그는 이제 우리가 수용 할 수있는 제 1 종 오류 (알파)를 0.05로 설정하는 규칙을 언급했으며, 예상치 못한 중요한 결과가 발생할 때 재현성의 중요성을 언급했습니다.

우리가 찾고있는 종류의 실제 원인이없는 경우, 거의 생산되지 않았을 경우, 관측 결과는 중요하다고 판단됩니다. 결과가 20 번의 시험에서 한 번 이상 우연히 발생했을 정도의 크기이면 결과를 중요하게 판단하는 것이 일반적입니다. 이것은 실제 수사관에게 임의적이지만 편리한 수준의 중요성이지만, 그가 20 번의 실험마다 한 번 자신을 속이는 것을 의미하지는 않습니다. 유의성 테스트는 무시할 대상, 즉 중요한 결과를 얻지 못한 모든 실험을 알려줍니다. 그는 실험을 설계하는 방법을 알면 실험 결과를 입증 할 수 있다고 주장해야한다. 따라서, 재생산 방법을 모르는 중요한 결과는 추가 조사가 진행되는 동안 중단되었다. (Fisher, 1929, 191 쪽)

참고

피셔, RA (1929). 심리 연구의 통계적 방법. 심리 연구 학회지, 39, 189-192.


2
피셔 (Fisher)는 또한 유물 학 분석 (Annals of Eugenics)에서 최대 가능성 추정을 개선하는 몇 가지 중요한 논문을 발표했습니다. 그의 방법은 종종 Karl Pearson이 사용한 순간의 방법보다 낫습니다. 피셔는 그의 방법을 기준점 추론이라고 불렀습니다. 그것은 나중에 Jerzy Neyman과 Egon Pearson (Karl Pearson의 아들)에 의해 공식화되었습니다.
Michael R. Chernick

3
Neyman과 Pearson은 Fisher의 기준 추론을 공식화하지 않았습니다. 그들은 다른 방법을 개발했습니다.
Michael Lew-

5
피셔 시대에 "유의적인"은 중요한 것이 아니라 무언가를 의미한다는 것을 의미했습니다.
David Lane

1
매우 상세한 정보에 대해 대단히 감사합니다! 정말 많은 도움이됩니다!
Eric

16

널 (null)의 일부가 사실 인 상황에서 유사한 테스트를 많이 수행하는 상황에 있다고 상상해보십시오.

t

(1β)β

nMnM

"거의"거부율은 어느 정도입니까?

ntα+n(1t)(1β)
n(1t)(1β)

(1t)(1β)tα+(1t)(1β)

tαtα+(1t)(1β)

올바른 거부 비율이 적은 수를 초과하려면 상황을 피해야합니다.(1t)(1β)tα

1βα

따라서 표본 크기가 작을 때 (따라서 검정력이 낮을 때), 합리적인 비율의 널 (null)이 참이면, 우리는 종종 거부 할 때 오류가 발생합니다.

거의 모든 null이 엄격하게 거짓이면 상황이 훨씬 나아지지 않습니다. 거의 대부분의 거절은 정확합니다 (사소한 영향은 여전히 ​​엄격하지 않기 때문에). 거부는 "잘못된 방향으로"될 것입니다. 우연히 샘플이 잘못된쪽에있는 것으로 판명 되었기 때문에 null이 종종 거짓이라는 결론을 내릴 것입니다. 의미-큰 표본 크기를 얻기가 어려운 경우에는 의미가없는 거부를 피해야합니다.

작은 표본 크기가 확실히 문제가 될 수 있음을 알 수 있습니다.

[이 잘못된 비율의 거부를 허위 발견 률 이라고합니다 ]


효과 크기에 대한 개념이 있다면 적절한 표본 크기가 무엇인지 판단하는 것이 좋습니다. 예상되는 효과가 크면 표본 크기가 작은 거부가 반드시 주요 관심사는 아닙니다.


고마워요! 그것은 내가 아주 쉽게 놓칠 수있는 요점입니다. 그것을 가리키는 핀 주셔서 감사합니다!
Eric

1
훌륭한 일. 이것은 대답이 될 수 있습니다.
Richard Hardy

@Eric 원래의 대답은 중간에 약간 혼란스러워졌습니다. 나는 그것을 고쳤다.
Glen_b-복지국 Monica

9

t 테스트를 개발 한 Gosset의 원래 작업 (일명 Student) 중 일부는 n = 4 및 5의 효모 샘플과 관련이있었습니다.이 테스트는 매우 작은 샘플을 위해 특별히 설계되었습니다. 그렇지 않으면 정규 근사치가 좋습니다. 즉, Gosset은 자신이 잘 이해 한 데이터에 대해 매우 신중하고 통제 된 실험을하고있었습니다. 양조장에서 테스트해야 할 수에는 제한이 있으며 Gosset은 기네스에서 근무 생활을 보냈습니다. 그는 자신의 데이터를 알고있었습니다.

일방적 인 테스트에 중점을두고 있습니다. 테스트의 논리는 가설에 관계없이 동일하지만 양면이 중요하지 않은 경우 사람들이 중요한 단측 테스트를 수행하는 것을 보았습니다.

이것이 (위) 일방적 인 테스트가 의미하는 바입니다. 평균이 0인지 테스트하고 있습니다. 수학을 수행하고 T> 2.5 인 경우 거부 할 준비가되었습니다. 실험을 실행하고 T = -50,000 인 것을 관찰하십시오. 당신은 "phhhhht"라고 말하고 인생은 계속됩니다. 검정 통계량이 가정 된 모수 값 아래로 가라 앉는 것이 물리적으로 불가능하지 않은 한, 검정 통계량이 예상과 반대 방향으로 진행되는 경우 어떠한 결정도 취하지 않는 한, 양측 검정을 사용해야합니다.


6

걱정해야 할 것은 테스트의 힘입니다. 특히, 표본 크기를 고려할 때 합리적인 크기의 실제 효과를 확인하기 위해 사후 검정력 분석을 수행 할 수 있습니다. 전형적인 효과가 매우 크면 (분자 생물학의 많은 실험에서와 같이) n 이 8 이면 충분할 수 있습니다. 관심있는 효과는하지만 (많은 사회 심리학 실험에서와 같이), 일반적으로 미묘한 경우, n은 수천 여전히 파워 부족 될 수 있습니다.

저전력 테스트는 잘못된 결과를 초래할 수 있으므로 중요합니다. 예를 들어, 테스트에 전력이 부족한 경우 중요한 결과를 찾더라도 Andrew Gelman이 "Type S"오류라고 부르는 확률이 상대적으로 높습니다. 즉, 실제 효과는 있지만 반대 방향으로 작용합니다. 또는 "Type M"오류, 즉 실제 효과가 있지만 실제 크기는 데이터에서 추정 된 것보다 훨씬 약합니다.

Gelman과 Carlin은 귀하의 경우에 적용되는 사후 전력 분석에 관한 유용한 논문을 작성했습니다 . 중요한 것은 독립된 데이터 (즉, 테스트 한 데이터가 아니라 검토, 모델링, 유사한 실험 결과 등)를 사용하여 실제 효과 크기를 추정하는 것이 좋습니다. 추정 가능한 실제 효과 크기를 사용하고 결과와 비교하여 검정력 분석을 수행하면 유형 S 오류가 발생할 확률과 일반적인 "과장 비율"을 파악할 수 있으므로 증거가 실제로 얼마나 강력한 지 더 잘 이해할 수 있습니다.


4

통계적 중요성의 요점은 "샘플 크기를 감안할 때이 결과를 신뢰할 수 있습니까?"라는 질문에 대답하는 것이라고 말할 수 있습니다. 다시 말해, 요점은 작은 샘플 크기로 실제 효과가 없을 때 플루크를 얻을 수 있다는 사실을 제어하는 ​​것입니다. 통계적으로 의의, 즉 p- 값은 "실제 효과가 존재하지 않는다면이 정도의 큰 타격을 입을 가능성은 얼마나 될까?"라는 질문에 대한 답입니다. 매우 가능성이 낮다면 이는 이것이 우연이 아님을 나타냅니다.

대답은 "예"입니다 그래서 P 값이 낮은, 경우, 그리고 정확한 통계 절차를 따랐다 및 관련 가정을 만족하는 경우, 다음 네, 좋은 증거이며, 같은 무게를 가지고있는 것처럼 당신은 좋겠 매우 큰 표본 크기로 동일한 p- 값을 얻었습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.