거대한 샘플로 t- 검정을 수행하는 방법은 무엇입니까?


11

두 개 모집단이 있는데, 하나는 N = 38,704 (관찰 횟수)이고 다른 하나는 N = 1,313,662입니다. 이 데이터 세트에는 ~ 25 개의 변수가 있으며 모두 연속적입니다. 각 데이터 세트에서 각각의 평균을 취하고 공식을 사용하여 검정 통계량을 계산했습니다.

t = 평균 차이 / 표준 오차

문제는 자유의 정도입니다. df = N1 + N2-2의 공식으로 테이블이 처리 할 수있는 것보다 더 많은 자유를 얻게됩니다. 이것에 대한 제안? 여기에서 t 통계를 확인하는 방법. 나는 t-test가 샘플을 처리하는 데 사용된다는 것을 알고 있지만 우리가 이것을 큰 샘플에 적용하면 어떻게 될까요?

답변:


20

chl은 이미 동일한 데이터 세트로 25 개의 테스트를 동시에 수행 할 때 여러 비교의 함정을 언급했습니다. p 값 임계 값을 테스트 횟수 (이 경우 25)로 나누어 p 값 임계 값을 조정하는 쉬운 방법입니다. 보다 정확한 공식은 다음과 같습니다. 조정 된 p 값 = 1-(1-p 값) ^ (1 / n). 그러나 두 가지 다른 공식은 거의 동일한 조정 된 p 값을 도출합니다.

가설 검정 연습과 관련하여 또 다른 주요 문제가 있습니다. 가장 확실하게 제 1 종 오류 (거짓 긍정)가 발생하여 99.9999 % 수준에서 매우 중요한 사소한 차이를 발견 할 수 있습니다. 크기가 큰 (n = 1,313,662) 표본을 처리 할 때 0에 매우 가까운 표준 오류가 발생하기 때문입니다. 1,313,662 = 1,146의 제곱근 때문입니다. 따라서 표준 편차를 1,146으로 나눕니다. 요컨대, 당신은 완전히 중요하지 않은 미세한 차이를 포착 할 것입니다.

이 가설 테스트 프레임 워크에서 벗어나 효과 크기 유형 분석을 수행하는 것이 좋습니다. 이 프레임 워크 내에서 통계적 거리 측정은 표준 편차입니다. 표준 오차와 달리 표준 편차는 표본 크기에 의해 인위적으로 축소되지 않습니다. 또한이 방법을 사용하면 데이터 세트 간의 중요한 차이를 더 잘 이해할 수 있습니다. 효과 크기는 또한 평균 평균 차이에 대한 신뢰 구간에 훨씬 중점을 두는데, 이는 종종 유의미하지 않은 통계적 유의성에 대한 가설 검정 초점보다 훨씬 유익합니다. 희망이 도움이됩니다.


4
+1 주요 아이디어 도출 : (1) 데이터 세트가 클 때 평균이 다르고 (2) 다른 분석이 더 적절하고 유용 할 수 있음을 보장 할 수 있습니다. 그러나 분석의 목적을 알지 못하므로 특정 권장 사항을 신중하게 작성해야합니다.
whuber

감사합니다 Gaetan..got you .. 내가 이것에서 빼앗은 것은 표준 편차가 광산과 같은 큰 샘플을 가질 때 더 나은 척도라고 생각합니다.
ayush biyani

1
아유 ... 네 말이 맞아. 그것은 기본적으로입니다. 그리고 이것은 표준 오차가 (샘플 크기가 커서) 너무 작아지기 때문입니다. 이것은 테스트 그룹과 컨트롤 그룹 사이의 통계적 거리를 과장합니다. 그리고 궁극적으로 제 1 종 오류가 발생합니다 (중요하지 않은 작은 차이를 발견). 이는 큰 표본을 사용한 가설 검정에서 일반적인 문제입니다.
Sympa

14

자유도가 높아질수록 스튜던트 t- 분포는 표준 정규 분포에 점점 더 가까워집니다. 1313662 + 38704 – 2 = 1352364 자유도를 사용하면 t- 분포는 아래 그림에서 볼 수 있듯이 표준 정규 분포와 구분할 수 없습니다 (아마도 극단적 인 꼬리에 있고 관심이없는 경우 제외) 아주 작은 p- 값 과 더 작은 값을 구별 ). 따라서 t- 분포 테이블 대신 표준 정규 분포 테이블을 사용할 수 있습니다 .

대체 텍스트


여러분, 답변 주셔서 감사합니다. 분석 할 데이터가 있습니다. 이것에 데이터를 어떻게 첨부합니까? 많은 사람들에게 물어볼 것입니다. 신속한 답변을 기대합니다.
ayush biyani

4
응? 당신은 질문에서 이미 t- 통계량을 계산했다고 말했고 chl은 샘플 R 코드를 제공했습니다. 무엇을 더 원하십니까? 그건 그렇고, 나는 당신이 프롬프트 응답을 기대하거나 요청할 권리가 확실하지 않습니다; 우리는 당신이 아는 이것에 대해 돈을받지 않습니다.
onestop

1
@ayush 귀하의 이전 질문에 대해서는 귀하의 질문에 대한 완전한 답변을 제공합니다 (IMHO)-귀하가 여기에 의견 옵션의 목적이 아닌 다른 질문을 할 것이라고 생각했을 때 중단하기 전에 귀하의 의견에 대한 후속 조치를했습니다. . 따라서 귀하의 질문이 이론적 고려 사항과 관련이 있는지 또는 적용된 데이터 분석 (후자의 경우 재현 가능한 예를 제공)과 관련이 있는지 명확하게 진술하거나 질문을 분리하십시오. BTW, 당신은 여전히 ​​유용하다고 생각되는 답변을 받아 들일 수있는 옵션을 가지고 있습니다.
chl

2
@ayush 아, 그리고 나는 당신이 당신 에게 제공된 답을 절대로 투표 하지 않는다는 것을 알고 있습니다 (지금 충분한 담당자가 있지만).
chl

@ chl-- 그래 .. 그래도 나는 내 잘못을 깨닫고 앞으로 올릴 게시물에서 이것을 바로 잡을 것이다. 이것을 지적 해 주셔서 감사합니다. 며칠 동안 순진한 아마추어를 생각하십시오 ..
ayush biyani

10

>30

데이터 세트에 25 개의 변수가 포함되어 있으므로 25 개의 테스트를하고 있습니까? 이 경우 유형 I 오류율을 부 풀리지 않도록 다중 비교를 수정해야합니다 (이 사이트의 관련 스레드 참조).

BTW, R 소프트웨어는 원하는 p- 값을 제공하며 테이블에 의존 할 필요가 없습니다.

> x1 <- rnorm(n=38704)
> x2 <- rnorm(n=1313662, mean=.1)
> t.test(x1, x2, var.equal=TRUE)

    Two Sample t-test

data:  x1 and x2 
t = -17.9156, df = 1352364, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -0.1024183 -0.0822190 
sample estimates:
  mean of x   mean of y 
0.007137404 0.099456039 
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.