t- 검정이 유효하기 위해 필요한 최소 표본 크기가 있습니까?


70

저는 현재 유사 실험 연구 논문을 작성 중입니다. 선택한 지역 내 인구가 적고 15 개만 기준에 맞기 때문에 표본 크기는 15입니다. t- 검정 및 F- 검정에 대해 계산할 최소 표본 크기는 15입니까? 그렇다면이 작은 표본 크기를 지원하는 기사 나 책을 어디서 구할 수 있습니까?

이 문서는 지난 월요일 이미 변호되었으며, 패널 중 하나가 샘플 크기가 너무 작아서 참조 자료를 요청했습니다. 그는 40 명 이상의 응답자가되어야한다고 말했다.


4
가정이 유지되는 경우 표본 크기는 15보다 실질적으로 작을 수 있습니다. t- 분포의 유효성이 더 큰 표본을 제안한 유일한 이유입니까?
Glen_b

명확히하기 위해 어떤 종류의 t-test를 수행하고 있습니까? 하나의 샘플, 쌍을 이루는 샘플 또는 두 개의 샘플
Jeromy Anglim

26
역사적으로 t- 검정의 첫 번째 시연 ( "학생"의 1908 년 논문)은 크기가 4 인 표본 크기에 적용되었습니다 . 실제로, 작은 샘플에 대한 개선 된 결과를 얻는 것이 명성을 얻는 시험의 주장입니다. 일단 샘플 크기가 40 정도에 도달하면, t- 테스트는 19 세기 내내 연구원들이 적용한 z- 테스트와 크게 다르지 않습니다. 이 문서의 최신 버전을 패널 멤버 ( york.ac.uk/depts/maths/histstat/student.pdf) 와 공유 할 수 있습니다 . 섹션 VI, 14-18 페이지의 조사를 지적하십시오.
whuber

10
그러나 학생이 화학 실험 데이터, 실험, 준 실험이 아닌 양질의 데이터를 가지고 있기 때문에 4와 같은 작은 샘플 크기가 작동한다는 사실을 숙고해야합니다. 주된 문제는 표본 크기가 아니라 대표성입니다. 데이터가 무엇인가를 대표한다는 것을 어떻게 알 수 있습니까?
kjetil b halvorsen

10
@CzarinaFrancoise 왜 우리가 과학을 10 세 미만으로 제한할까요?
RioRaider

답변:


56

t 테스트가 유효한 최소 샘플 크기는 없습니다. 유효성은 검정 통계량에 대한 가정이 대략적으로 유지되도록 요구합니다. 이러한 가정은 표본 가설에서 귀무 가설 하에서 평균이 0이고 데이터에서 알 수 없지만 표본에서 추정 된 분산이 iid 정규 (또는 대략 정규)라는 것입니다. 두 표본의 경우 두 표본이 서로 독립적이며 각 표본은 귀무 가설 하에서 평균이 같고 평균이 알려지지 않은 분산을 갖는 두 개의 표본이있는 iid 정규 변수로 구성됩니다. 통계적으로 풀링 된 분산 추정치가 사용됩니다.

하나의 표본 경우에서 귀무 가설 하의 분포는 n-1 자유도를 갖는 중심 t 입니다 . 표본 크기가 nm 인 두 표본 사례 에서 검정 통계량의 null 분포 가 n + m-2 자유도를 갖는 t 와 반드시 같을 필요는 없습니다 . 낮은 표본 크기로 인한 증가 된 변동성은 자유도가 낮을 ​​때 낮은 표본 크기에 해당하는 꼬리가 무거워지는 분포에서 설명됩니다. 따라서 검정 통계량에 대해 모든 표본 크기 (적어도, 적어도 2 이상의 크기)에 대해 주어진 유의 수준을 갖는 임계 값을 찾을 수 있습니다.

표본 크기가 작은 문제는 검정력과 관련이 있습니다. 검토자는 그룹당 15 개가 두 표본 간의 델타 또는 하나의 표본 문제에 대한 절대 값이 델타보다 큰 평균과 같은 의미있는 차이를 탐지 할 수있는 충분한 표본 크기가 아니라고 생각했을 수 있습니다. 40이 필요하면 n이 40이지만 40보다 작지 않은 특정 델타에서 특정 전력의 사양이 필요합니다.

t 검정을 수행하려면 표본이 분산 또는 분산을 추정하기에 충분히 커야한다고 덧붙여 야합니다.


2
그러나 중요한 점은 데이터가 대략 정상이 아니더라도 샘플 크기가 충분히 클 경우 테스트 유효하다는 것입니다. 정당화는 (Slutsky의 정리 + t 분포가 정상에 가까워짐) 약간 z- 검정보다 작은 표본에서 더 보수적이라는 것에 대한 정당화입니다. 그러나 비정규 성이 의심되는 경우 큰 표본을 사용하면 우리를 구할 수 있습니다.
Cliff AB

1
@CliffAB "유효하다"라는 말은 "n \ to \ infty의 한계에 대략적으로 유의 한 유의 수준을 가짐"을 의미한다고 가정합니다. 그러나 일반적으로 사람들은 제 1 종 오류율 이상 (특히 표본 크기보다 더 클 수있는 표본에 합리적으로 근접 할 수있는 경우)보다 더 많은 관심을 기울입니다. 점근 적 상대 효율은 실제로 매우 열악 할 수 있으므로, 제 1 종 오류율이 원하는 수준이 되더라도 큰 샘플에서 작은 효과에 대한 검정력은 대안 선택에 비해 매우 나쁠 수 있습니다.
Glen_b

33

그는 모든 것을 존중하면서 자신이 무엇을 말하는지 모른다. t- 검정은 작은 샘플로 작업하도록 설계되었습니다. 실제로 최소값은 없지만 (단일 샘플 t- 검정 IDK의 경우 최소 3이라고 말할 수는 있지만) 작은 샘플의 적절한 검정력 에 대한 우려가 있습니다 . 귀하의 경우와 같이 가능한 샘플 크기가 매우 제한적일 경우 타협 전력 분석 의 아이디어에 대해 관심이있을 수 있습니다 .

작은 샘플로 t- 검정을 사용할 수 있음을 증명하는 참고 자료에 대해서는 하나도 알지 못하며 하나가 존재하는지 의심합니다. 왜 누군가가 그것을 증명하려고합니까? 아이디어는 어리석은 일입니다.


6
+1 (당신과 마이클). 흥미롭게도, 일련의 가정을 기꺼이 내릴 때 추론하기 위해 두 가지 관찰 조차 필요하지 않습니다 !
Andy W

4
작은 샘플에서 t 테스트의 이유는 표준 편차를 알 수없는 경우 샘플이 정상 일지라도 표준 편차의 샘플 추정값으로 나누어 일반적인 작업을 표준화하기 때문입니다. 추정치가 큰 표본의 경우 검정 통계량이 대략 표준 법선이 될 것이라는 모집단 표준 편차에 충분히 가까울 것입니다.
Michael Chernick

5
자유도가 n-1 인 t 분포는 귀무 가설 하의 모든 표본 크기 n에 대한 정확한 분포이며 작은 표본에서는 근사치가 아닌 법선 대신 사용해야합니다. gung과 내가 언급 한 것처럼 샘플 크기의 실제 문제는 힘입니다. 만약 심판이 15 분이면 충분하다고 주장하고 싶다면, 차이가 얼마나 큰 의미가 있어야하는지 (필자가 언급 한 델타) 식별해야하고, 그 델타의 경우 그 힘이 0.80 이상이라고 말하면 충분하다는 것을 보여 주어야합니다 .
Michael Chernick

2
@CzarinaFrancoise n> = 30에 관하여, stats.stackexchange.com/questions/2541/…
Stéphane Laurent

2
@gung Student의 원본 (1908!) 용지는 작은 표본으로 t- 검정을 사용할 수 있음을 증명합니다. (이에 대한 자세한 내용은 원래 질문에 대한 확장 된 설명을 참조하십시오.)
whuber

30

기존 답변에서 언급했듯이 표본 크기가 작은 주요 문제는 낮은 통계적 검정력입니다. 수용 가능한 통계적 힘에 관한 다양한 경험 법칙이 있습니다. 어떤 사람들은 80 %의 통계 능력이 합리적이라고 말하지만 궁극적으로는 더 좋습니다. 일반적으로 더 많은 참가자를 확보하는 비용과 더 많은 통계 능력을 얻는 이점 사이에는 균형이 있습니다.

R,의 간단한 함수를 사용하여 테스트시 통계 검정력을 평가할 수 있습니다 power.t.test.

α=.05

p.2 <-power.t.test(n=15, delta=.2, sd=1, sig.level=.05, type='one.sample')
p.5 <- power.t.test(n=15, delta=.5, sd=1, sig.level=.05, type='one.sample')
p.8 <-power.t.test(n=15, delta=.8, sd=1, sig.level=.05, type='one.sample')

round(rbind(p.2=p.2$power, p.5=p.5$power, p.8=p.8$power), 2)  

    [,1]
p.2 0.11
p.5 0.44
p.8 0.82

따라서 모집단 효과 크기가 "작은"또는 "중간"인 경우 통계 능력이 낮습니다 (즉, 각각 11 % 및 44 %). 그러나 모집단에서 효과 크기가 크면 일부는 "합리적인"거듭 제곱 (예 : 82 %)으로 설명 할 수 있습니다.

Quick-r 웹 사이트는 R을 사용한 전력 분석에 대한 추가 정보를 제공합니다 .


좋은 대답입니다! 또한 G * Power 라는 통계적 검정력을 계산하는 데 유용한 소프트웨어가 있습니다.
Enrique

7

두 표본 t- 검정은 두 표본이 동일한 분산을 갖는 정규 분포에서 독립적 인 단순 랜덤 표본이고 각 표본 크기가 2 이상인 경우 (인구 분산이 추정 될 수 있음) 유효합니다. 시험의 타당성 문제와 관련이 없습니다. 탐지하고자하는 효과의 크기에 따라, 작은 표본 크기는 부적절 할 수 있지만, 작은 표본 크기는 시험을 무효화하지 않습니다. 모체 분포가 정규이면 모든 표본 크기에 대해 평균의 표본 분포가 정규입니다. 물론 더 큰 표본 크기는 더 정확한 매개 변수 추정치를 제공하기 때문에 항상 더 좋습니다. 중앙 한계 정리 (Central Limit Theorem)는 표본 평균이 개별 값보다 일반적으로 더 많이 분포되어 있지만 Casella와 Berger가 지적한대로, 정규성에 대한 접근 률이 특정 사례에 대해 확인되어야하므로 유용성이 제한적입니다. 경험 법칙에 의존하는 것은 현명하지 않습니다. Rand Wilcox의 책에보고 된 결과를 참조하십시오.


5

t- 분포가 작은 표본 크기를 고려한다는 것은 사실이지만, 귀하가 가진 유일한 정보가 비교적 작은 표본 일 때, 귀하의 심판이 모집단이 정규 분포를 이루는 것을 어렵게 생각하고 있다고 가정합니다. 샘플이 모호하게 정규 분포한다는 징후를 보여주기에 충분히 크므로 15 크기의 샘플에서는 큰 문제가되지 않을 수 있습니까? 이것이 사실이라면 희망 인구가 어딘가에 중심 극한 정리와 함께, 너무 정상 근처, 즉 당신에게 행동도 충분 샘플 수단을 제공해야한다.

그러나 모집단의 정규성이 외부 정보 또는 기계적 이해에 의해 확립 될 수 없다면 작은 샘플 (예 : 크기 4)에 대해 t- 검정을 사용하는 권장 사항에 대해 의심 스럽습니까? 인구 분포의 형태에 대한 힌트를 얻을 수있는 표본 크기가 4 인 표본에 충분한 정보가있는 곳은 없습니다.


5

JR Sauro, J., & Lewis, JR (2016)의 pp. 254-256에서 다음을 고려하십시오. 사용자 경험의 정량화 : 사용자 연구를위한 실용 통계, 2nd Ed. 케임브리지, MA : Morgan-Kaufmann ( https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ 에서 확인할 수 있음 )


최소 30 명의 사용자를 테스트해야합니까?

한 손으로

입문 통계 수업을 수강 한 사람 (또는 그러한 수업을 수강 한 사람을 알고있는)을 알고있는 대부분의 사람들은 평균을 추정하거나 비교하기 위해 표본 크기가 30 이상이어야한다는 경험 법칙을 들었을 것입니다. 표본 크기가 증가함에 따라 기본 분포의 정규성에 관계없이 평균 분포가 점점 더 정규화됩니다. 일부 시뮬레이션 연구에 따르면 광범위한 분포 (모두는 아님) (브래들리, 1978 참조)의 경우, 평균 분포는 n = 30 일 때 거의 정규화됩니다.

또 다른 고려 사항은 z 점수는 자유도를 사용할 필요가 없기 때문에 t 점수보다는 z 점수를 사용하는 것이 약간 더 간단하다는 것입니다. 표 9.1과 그림 9.2에서 볼 수 있듯이 약 30 자유도를 가질 때 t의 값은 z의 값과 거의 비슷해집니다. 결과적으로 작은 표본 통계가 필요한 작은 표본을 다룰 필요가 없다는 느낌이들 수 있습니다 (Cohen, 1990). ...

다른 손에

일반적으로 많은 유형의 사용자 연구에서와 같이 샘플 비용이 비싸면 (예를 들어, 사용성 테스트), 필요한 샘플 크기는 가능한 한 정확하게 추정하는 것이 중요합니다. 주어진 상황 집합에 대해 정확히 30이 올바른 표본 일 가능성은 매우 낮습니다. 표본 크기 추정에 관한 장에서 알 수 있듯이,보다 적절한 접근 방법은 통계 검정의 유의 수준을 계산하기위한 공식을 취하고 대수를 사용하여 n을 풀기 위해 표본 크기 추정 공식으로 변환하는 것입니다. 그런 다음 해당 공식은 필요한 샘플 크기를 추정하기 위해 주어진 상황에 대해 알고 있거나 추정해야 할 사항에 대한 구체적인 지침을 제공합니다.

t- 분포 (z- 분포가 아닌)에서도 표본 크기가 30 이상이어야한다는 생각은 분포의 개발 이력과 일치하지 않습니다. 1899 년, 화학 및 수학 학위를받은 옥스포드의 뉴 칼리지 (New College)를 최근 졸업 한 윌리엄 S. 고셋 (William S. Gossett)은 기네스 양조장에 합류 한 최초의 과학자 중 한 명이되었습니다. “그 당시의 거인들과 비교했을 때, 그는 거의 출판하지 않았지만 그의 기여는 매우 중요합니다. … 온도와 성분이 다양하기 때문에 양조 과정의 특성상 장기적으로 큰 샘플을 채취 할 수 없다는 것을 의미합니다”(Cowles, 1989, p. 108–109).

이것은 Gossett가 자신의 작업에서 z- 점수를 사용할 수 없다는 것을 의미했습니다. 작은 샘플로는 잘 작동하지 않습니다. 작은 표본을 사용한 통계 테스트에 대한 z- 분포의 결함을 분석 한 후, 그는 출판을 금지하는 기네스 정책으로 인해 "학생"이라는 가명으로 출판 된 t 테이블을 생성하는 자유도의 함수로 필요한 조정을 수행했습니다. 직원 별 (Salsburg, 2001). 표를 발표 한 작업에서 Gossett는 초기 버전의 Monte Carlo 시뮬레이션을 수행했습니다 (Stigler, 1999). 그는 범죄자에 대한 물리적 측정치가 적힌 3000 장의 카드를 준비하고 섞은 다음, 크기가 4보다 큰 750 개 그룹 (샘플 크기는 30보다 훨씬 작은 크기)으로 처리했습니다.

우리의 추천

이 논란은 6 장에서 다룬“5면 충분하다”와“8면 충분하지 않다”는 주장과 비슷하지만 조형 연구보다는 요약에 적용된다. 모든 조사에서 테스트 할 사용자 수는 테스트 목적 및 수집 할 데이터 유형에 따라 다릅니다. “마법의 숫자”30은 경험적 근거가 있지만 우리의 견해로는 매우 약합니다. 이 책의 샘플 크기가 30이 아닌 (때로는 더 적거나 더 많은 경우) 많은 예에서 알 수 있듯이,이 경험 법칙을 크게 고려하지는 않습니다. 요약 연구에 대한 표본 크기 장에 설명 된 것처럼 연구에 적합한 표본 크기는 분포 유형, 예상되는 데이터 변동성, 원하는 수준의 신뢰도 및 검정력,

그림 9.2와 같이 매우 작은 표본 (예 : 자유도 5 미만)으로 t- 분포를 사용할 때 t의 매우 큰 값은 제 1 종 오류의 통제와 관련하여 작은 표본 크기를 보상합니다 ( 그렇지 않다면 차이를 주장하는 것이 중요합니다). 표본 크기가 작을수록 신뢰 구간은 더 큰 표본에서 얻을 수있는 것보다 훨씬 넓습니다. 그러나 5 자유도 이상을 다루면 z 값과 t 값 사이에는 절대적인 차이가 거의 없습니다. t에서 z 로의 접근의 관점에서 볼 때, 10 자유도를 초과하는 이득은 거의 없습니다.

z- 분포보다 t- 분포를 사용하는 것이 훨씬 복잡하지 않으며 (자유도에 올바른 값을 사용해야 함) t- 분포가 발생하는 이유는 작은 샘플을 분석 할 수 있습니다. 이것은 유용성 실무자가 맥주 양조의 과학과 실습에서 혜택을 얻는 덜 명백한 방법 중 하나입니다. 통계 학자들은 Gossett의 Student 's t-test 간행물을 획기적인 사건으로 간주합니다 (Box, 1984; Cowles, 1989; Stigler, 1999). Gossett는 t 테이블의 초기 사본을 포함하는 Ronald A. Fisher (현대 통계학의 아버지 중 한 명)에게 보낸 편지에서“당신은 아마도 그것들을 사용할 유일한 사람 일 것입니다”라고 말했습니다 (Box, 1978). Gossett은 많은 것들을 옳게 얻었지만 분명히 그 일을 잘못했습니다.

참조

박스, GEP (1984). 통계 개발에서 실천의 중요성. 기술 측정, 26 (1), 1-8.

JF Box (1978). 피셔, 과학자의 삶 뉴욕, 뉴욕 : John Wiley.

JV 브래들리 (1978). 견고성? 영국 수학 및 통계 심리학 저널, 31, 144-152.

코헨, J. (1990). 내가 지금까지 배운 것들. 미국 심리학자, 45 (12), 1304-1312.

Cowles, M. (1989). 심리학 통계 : 역사적 관점. 뉴저지 힐즈 데일 : 로렌스 엘 바움.

Salsburg, D. (2001). 차를 맛보는 여성 : 20 세기 통계가 어떻게 과학에 혁명을 가져 왔는가. 뉴욕, 뉴욕 : WH Freeman.

SM, Stigler (1999). 테이블 통계 : 통계 개념 및 방법의 역사. 케임브리지, MA : 하버드 대학교 출판부.


3

Czarina는 파라 메트릭 t- 검정 결과와 부트 스트랩 t- 검정 결과를 비교하는 것이 흥미로울 수 있습니다. Stata 13/1에 대한 다음 코드는 동일하지 않은 분산을 갖는 2- 표본 t- 검정과 관련된 가상의 예를 모방합니다 (매개 변수 t- 검정 : p- 값 = 0.1493; 부트 스트랩 t- 검정 : p- 값 = 0.1543).

set obs 15
g A=2*runiform()
g B=2.5*runiform()
ttest A == B, unpaired unequal
scalar t =r(t)
sum A, meanonly
replace A=A-r(mean) + 1.110498 ///1.110498=combined mean of A and B
sum B, meanonly
replace B=B-r(mean) + 1.110498
bootstrap r(t), reps(10000) nodots///
saving(C:\Users\user\Desktop\Czarina.dta, every(1) double replace) : ///
ttest A == B, unpairedunequal
use "C:\Users\user\Desktop\Czarina.dta", clear
count if _bs_1<=-1.4857///-1.4857=t-value from parametric ttest
count if _bs_1>=1.4857
display (811+732)/10000///this chunk of code calculates a bootstrap p-value///
to be compared with the parametric ttest p-value

3

t- 검정의 사용을 정당화하는 두 가지 방법이 있습니다.

  • 데이터가 정상적으로 분포되어 있고 그룹당 최소 두 개의 샘플이 있습니다.
  • 각 그룹마다 큰 표본 크기가 있습니다

경우 중 하나 이러한 경우는 개최 후, t-test를 유효한 테스트로 간주됩니다. 따라서 데이터가 정상적으로 분포되어 있다고 가정하고 싶다면 (작은 샘플을 수집하는 많은 연구원들이), 걱정할 필요가 없습니다.

그러나 누군가가 특히 데이터가 왜곡 된 경우 결과를 얻기 위해이 가정에 의존한다고 합리적으로 반대 할 수 있습니다. 그렇다면 유효한 추론에 필요한 표본 크기 문제는 매우 합리적입니다.

얼마나 큰 표본 크기가 필요한지에 대해서는 불행히도 이에 대한 확실한 답은 없습니다. 데이터가 왜곡 될수록 근사값을 합리적으로 만드는 데 필요한 표본 크기가 더 커집니다. 일반적으로 그룹당 15-20 개는 합리적으로 큰 것으로 간주되지만 대부분의 경험 규칙과 같이 반대의 예가 있습니다. 이 테스트 전에 약 100,000,000 개의 관측치가 적절할 것입니다.


1

나는 증폭 된 t- 검정의 유용성에 대해 동의합니다. 또한 Kruschke가 제공하는 베이지안 방법 ( http://www.indiana.edu/~kruschke/BEST/BEST.pdf)을 비교해 보는 것이 좋습니다 . 일반적으로 "주제 수는 몇 명입니까?" 해결중인 문제와 관련 하여 중요한 효과 크기 가 무엇인지에 대한 아이디어를 손에 넣지 않으면 대답 할 수 없습니다 . 즉, 예를 들어, 시험이 신약의 효능에 관한 가설 적 연구 인 경우, 효과 식품의 크기는 미국 식품 의약 국의 구약에 비해 신약을 정당화하는 데 필요한 최소 크기 일 수 있습니다.

이것과 다른 많은 토론에서 이상한 점은 일부 데이터가 가우시안과 같은 이론적 분포를 가지고 있다고 주장하는 도매 의지입니다. 첫째, 우리는 작은 샘플로도 검사 할 수 있습니다. 둘째, 왜 특정 이론적 분포를 배치해야합니까? 왜 데이터를 경험적 분포로 받아들이지 않는가?

표본 크기가 작은 경우 데이터가 일부 분포에서 나온다는 사실은 분석에 매우 유용합니다. 그러나 브래들리 에프론 (Bradley Efron)을 말하면, 당신은 방대한 양의 데이터를 만들었습니다. 때로는 문제가 적절하다면 괜찮을 수도 있습니다. 때때로 그렇지 않습니다.


1

두 가지 샘플 사례에 대한 가정이있는 한; 두 샘플은 서로 독립적이며 각 샘플은 귀무 가설 하에서 동일한 평균과 공통 미지의 분산을 갖는 두 개의 샘플을 가진 iid 정규 변수로 구성됩니다.

표준 오차에 대해 Satterwaite Approximation을 사용하는 Welch t-test도 있습니다. 불균등 한 분산을 가정 한 2 샘플 t- 검정입니다.

웰치의 t- 검정

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.