짝을 이루지 않은 t- 검정의 최소 표본 크기


16

t- 검정이 유효하기 위해 필요한 최소 샘플 크기를 결정하는 "규칙"이 있습니까?

예를 들어, 두 모집단의 평균을 비교해야합니다. 한 모집단의 데이터 포인트는 7 개이고 다른 데이터 포인트의 데이터 포인트는 2 개뿐입니다. 불행히도 실험은 비용이 많이 들고 시간이 많이 걸리며 더 많은 데이터를 얻는 것은 불가능합니다.

t- 검정을 사용할 수 있습니까? 그 이유는 무엇? 세부 사항을 제공하십시오 (인구 분산 및 분포는 알려지지 않음). t- 검정을 사용할 수없는 경우 비모수 적 검정 (Mann Whitney)을 사용할 수 있습니까? 그 이유는 무엇?


2
이 질문은 유사한 자료를 다루며이 페이지의 시청자에게 관심이 될 것 입니다. t- 검정이 유효하기 위해 필요한 최소 샘플 크기가 있습니까? .
gung-모니 티 복원

더 작은 샘플 크기로 테스트하는 경우이 질문을 참조하십시오 .
Glen_b-복지 주 모니카

답변:


8

여기서는 짝을 이루지 않은 t -test 대신 비모수 Mann-Whitney U 테스트를 사용하는 것이 좋습니다 .

t- 검정에 대한 절대 최소 표본 크기는 없지만 표본 크기가 작아 질수록 두 표본이 정규 분포를 가진 모집단에서 추출된다는 가정에 검정이 더 민감 해집니다. 이 작은 표본, 특히 두 개의 표본 만있는 표본의 경우 모집단 분포가 정상임을 확신해야합니다. 작은 표본은 자체 정보가 거의 없기 때문에 외부 지식을 기반으로해야합니다. 정규성 또는 그 밖의 분포. 그러나 당신은 "인구 분산 과 분포 는 알려져 있지 않다"고 말합니다 (내 이탤릭체).

만 휘트니 U 검정은 모수 분포의 모수 적 형태에 대한 가정을 요구하지 않으며, 두 그룹의 분포가 귀무 가설 하에서 동일하다는 가정 만 요구합니다.


6
매우 작은 샘플 크기에는 권장되지 않습니다. 7과 2 개의 표본을 사용하면 그룹 평균의 차이가 아무리 크더라도 U- 검정이 실패합니다. 예를 들어 내 대답을보십시오.
AlefSin

2
@AlefSin이 말한 것보다 두 번째입니다. 유효한 결론을 내리는 것이 중요하고 (p- 값을 얻을뿐 아니라) 더 공명 가능한 가정을 더 잘 만들 수 있습니다. 합리적인 배경 정보가있는 경우 베이지안 프레임 워크에서 분석을 수행 한 경우 더 많은 가정을 추가 할 수도 있습니다.
Rasmus Bååth

2
한 가지 문제는 그러한 작은 표본 크기에서 Wilcoxon-Mann-Whitney는 전형적인 유의 수준을 달성 할 수 없다는 것입니다. 7과 2의 표본 크기를 사용하면 차이가 아무리 눈에 띄더라도 5 % 수준에서 중요한 결과를 얻을 수 없습니다. 5 % 수준에서는 (1.018,1.031,1.027,1.020,1.021,1.019,1.024) vs. (713.2, 714.5)를 고려하십시오!
Glen_b-복지 주 모니카

3
즉, n 2 = 2 인 경우 5 % 테스트가 처음에 의미가 있는지 여부를 고려해야한다는 매우 좋은 주장이 있습니다. 두 가지 오류 유형의 비용에 대한 적절한 평가는 상당히 다른 선택으로 이어질 수 있습니다. 1=72=2
Glen_b-복지 주 모니카

6

(면책 조항 : 오늘은 잘 입력 할 수 없습니다 : 오른손이 골절되었습니다!)

다른 답변에서 비모수 적 테스트를 사용하라는 조언과는 달리, 매우 작은 표본 크기의 경우 이러한 방법이 유용하지 않다는 점을 고려해야합니다. 크기가 매우 작은 연구에서 관찰되는 경우 효과 크기가 크지 않으면 그룹 간 차이를 설정할 수없는 이유를 쉽게 이해할 수 있습니다. 그러나 비모수 적 방법은 그룹 간 차이의 크기를 신경 쓰지 않습니다. 따라서 두 그룹 간의 차이가 크더라도 표본 크기가 작 으면 비모수 검정이 항상 귀무 가설을 기각하지 못합니다.

두 그룹, 정규 분포, 동일한 분산을 예로 들어 보겠습니다. 그룹 1 : 평균 1.0, 7 샘플. 그룹 2 : 평균 5, 2 개의 샘플. 평균 사이에는 큰 차이가 있습니다.

wilcox.test(rnorm(7, 1), rnorm(2, 5))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 5)
W = 0, p-value = 0.05556

계산 된 p- 값은 0.05556이며 귀무 가설을 기각하지 않습니다 (0.05). 이제 두 평균 사이의 거리를 10 배 늘려도 동일한 p- 값을 얻게됩니다.

wilcox.test(rnorm(7, 1), rnorm(2, 50))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 50)
W = 0, p-value = 0.05556

이제 t- 검정으로 동일한 시뮬레이션을 반복하고 큰 차이 (평균 5 대 1)와 큰 차이 (평균 50 대 1)의 경우 p- 값을 관찰하십시오.


5

t- 검정의 최소 표본 크기는 없습니다. 실제로 t- 검정은 작은 샘플을 위해 설계되었습니다. 예전에는 테이블을 인쇄했을 때 아주 작은 샘플 (df로 측정)에 대한 t- 테스트 테이블을 보았습니다.

물론 다른 테스트와 마찬가지로 작은 샘플이 있으면 상당히 큰 효과 만 통계적으로 중요합니다.


그러나 그 반대도 문제가 될 것입니까? 즉, 표본 추출 된 특이 치가 귀무 가설을 허위로 기각 할 수 있습니까? 아니면 차이를 감지하는 저전력이 더 큰 문제입니까? 이 특별한 상황에서 나는 수단들 사이에 중요한 차이가 있지만 그것을 얼마나 "신뢰"해야하는지 모른다.
Johnny Puzzled

2
n = 2를 사용하면 특이 치, 즉 인구 집단의 특이 치의 영향에 확실히 취약합니다. 2의 표본이 어떻게 표본 내에 특이 치를 가질 수 있습니까? :-)이 상황에서는 추론 통계를 시도하지 않습니다. 전망은 "진실"에 도달하기에는 가난하며, 당신은 자신을 비판에 넓게 개방 할 것입니다.
rolando2

2
신뢰 구간이 넓어지는 이유는 정확히 이상 값을 얻을 수 있기 때문입니다. 그러나 t- 검정은 여전히 ​​표본이 정규 모집단에서 추출 된 것으로 가정합니다.
Peter Flom-Monica Monica 복원

2

한 그룹에서 7 개의 데이터 포인트가 있고 두 번째 그룹에서 2 개의 데이터 포인트가 있다고 가정합니다. 두 그룹은 모두 모집단의 하위 집합입니다 (예 : 남성의 하위 집합 및 여성의 하위 집합).

t-test에 대한 수학은 이 Wikipedia 페이지 에서 얻을 수 있습니다 . . 우리는 샘플 크기가 같지 않고 (7 대 2) 분산이 같지 않으므로 독립적 인 2- 표본 t- 검정을 가정합니다. 계산이 평균과 표준 편차를 기반으로한다는 것을 알 수 있습니다. 한 그룹에 7 명의 피험자 만 있고 다른 그룹에 2 개의 피험자 만 있으면 평균 또는 표준 편차에 대한 추정치가 충분하다고 가정 할 수 없습니다. 주제가 2 명인 그룹의 경우 평균은 단순히 두 데이터 포인트의 중간에있는 값이므로 제대로 추정되지 않습니다. 대상이 7 명인 그룹의 경우 표본 크기가 작을수록 극단 값이 훨씬 더 강한 효과를 나타 내기 때문에 표본 크기가 분산에 크게 영향을 미칩니다 (따라서 분산의 제곱근 인 표준 편차).

예를 들어, Wikipedia 페이지에서 표준 편차에 대한 기본 예 를 보면 표준 편차가 2이고 분산 (표준 편차의 제곱)이 4임을 알 수 있습니다. 그러나 처음 두 개의 데이터 포인트 만있는 경우 (9와 1), 분산은 10/2 = 5이고 표준 편차는 2.2이며, 마지막 두 값 (4와 16) 만 가진 경우 분산은 20/2 = 10입니다. 표준 편차는 3.2입니다. 우리는 여전히 같은 값을 사용하고 있으며 그 중 적은 값만 사용하며 추정치에 미치는 영향을 볼 수 있습니다.

이는 표본 크기가 작은 추론 통계를 사용하는 데 문제가되므로 결과는 특히 표본 추출의 영향을 많이받습니다.

업데이트 : 단순히 주제별로 결과를보고 할 수없는 이유가 있습니까? 두 건의 사례만으로도 데이터는 사례 연구와 매우 유사하며 (1) 기록하는 것이 중요하고 (2) 허용되는 연습입니다.


고마워 미셸 이것은 흥미롭고 알아두면 유용합니다. 그러나 실제적인 관점에서 무엇을 추천 하시겠습니까? 이 상황에서 진행하는 가장 좋은 방법은 무엇입니까? 감사!
Johnny Puzzled

조니 퍼즐. 정확한 상황에 대한 자세한 정보가 없으면 더 많은 지침을 제공 할 수 없습니다.
Michelle

어떤 종류의 정보가 필요합니까?
Johnny Puzzled

1
다시 한 번, 데이터 디자인, 수집 방법, 그룹 구성, 관찰 선택 방법 등 연구 설계에 대한 자세한 정보를 확인하십시오. 내가 아는 것은 두 그룹에서 온 9 개의 관측치 (사람, 쥐, 뉴런, 치즈 블록, 방사선 주파수)를 실험 한 것입니다.
Michelle

뇌의 백질로의 평균 혈류는 MRI를 사용하여 인간에서 측정되었다고 가정 해 봅시다. 그룹은 대조군 (7 명)과 특정 장애를 가진 연령 / 성별 환자 (2 명)입니다.
Johnny Puzzled


0

t- 검정과 Mann-Whitney 검정 둘 다에 대한 결론을 비교하고 박스 플롯과 각 모집단 평균의 프로파일 가능성을 살펴 보는 것이 좋습니다.


안녕하세요 @Demian, 한 그룹의 샘플 크기가 2 일 때 상자 그림조차도 도움이 될지 확신하지 못합니다.
Michelle

0

부트 스트랩 테스트를위한 Stata 13 / SE 코드작은 샘플에 대해 수행 된 ttest가 ttest 요구 사항 (주로 두 샘플이 꿀벌을 추출한 모집단의 정규성)을 충족하지 않을 수 있으므로 Efron B에 따라 부트 스트랩 ttest (균일하지 않은 분산)를 수행하는 것이 좋습니다. 티브시 라니 부트 스트랩 소개. 보카 레이턴, 플로리다 : 채프먼 & 홀 / CRC, 1993 : 220-224. Stata 13 / SE에서 Johnny Puzzled가 제공 한 데이터에 대한 부트 스트랩 테스트 코드는 위 이미지에보고되어 있습니다.


답변에 심각한 형식 문제가 있습니다. 편집 하시겠습니까?
amoeba는 Reinstate Monica

검토 된 버전의 답변에서 서식 문제를 해결하려고했습니다. 이것을 지적 해준 amoeba에게 감사합니다.
Carlo Lazzaro

0

표본 크기가 2 인 경우 가장 좋은 방법은 개별 숫자 자체를보고 통계 분석을 방해하지 않는 것입니다.


1
현재 이것은 주석과 비슷합니다. 이것이 원래의 문제에 대한 합리적인 답을 얻기위한 좋은 점이지만 궁극적으로는 다른 일을하는 것이 더 합리적이라고 결론을 내릴지라도 문제 자체에 대한 일부 논의가 예상 될 수 있습니다.
Glen_b-복지 주 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.