서로 다른 표본 크기의 평균 비교를 어떻게 해석해야합니까?


49

웹 사이트에서 도서 등급을 평가하십시오. 책 A의 평균 등급은 4.25이고 분산 입니다. 마찬가지로 Book B의 평가는 100 명이며 의 4.5 등급입니다 .σ = 0.25σ=0.5σ=0.25

이제 책 A의 표본 크기가 크기 때문에 '평균이 4.25로 안정화되었습니다. 이제 100 명에게 더 많은 사람이 Book B를 읽으면 평균 평점이 4 또는 4.25로 떨어질 수 있습니다.

  • 다른 표본의 평균 비교를 어떻게 해석해야하며, 가장 좋은 결론은 무엇입니까?

예를 들어 책 B가 책 A보다 낫다고 말할 수 있습니까?


등급 컨텍스트에 특히 관심이 있습니까?
Jeromy Anglim 2016 년

@JeromyAnglim-흠 ... 아마. 확실하지 않다. 이것이 가장 일반적인 예입니다. 무엇을 염두에 두셨습니까?
PhD

2
아래 베이지안 평가 시스템에 대한 내 답변을 참조하십시오. 적용된 등급 컨텍스트에는 일반적으로 수백 또는 수천 개의 등급이 지정된 객체가 있으며, 사용 가능한 정보가 제공되는 경우 해당 등급에 대한 최고 등급을 추정하는 것이 종종 목표입니다. 이것은 두 그룹의 의학 실험에서 볼 수 있듯이 간단한 두 그룹 비교와는 매우 다릅니다.
Jeromy Anglim

답변:


57

t- 검정을 사용하여 평균에 차이가 있는지 평가할 수 있습니다. 다른 표본 크기는 t- 검정에 문제를 일으키지 않으며 결과를 특별한주의를 기울여 해석 할 필요가 없습니다. 궁극적으로 단일 분포를 알려진 분포와 평균 및 SD를 가진 무한한 모집단과 비교할 수도 있습니다. 예를 들어 IQ가 130 인 사람은 97.7 %보다 똑똑합니다. 그러나 한 가지 주목할 점은 주어진 (즉, 샘플 크기)에 대해 그룹 이 같으면 검정력이 최대화된다는 것입니다 . 그룹 크기가 매우 다르면 각각의 추가 관측으로 추가 해상도를 얻지 못합니다. nNn

권력에 대한 요점을 명확히하기 위해 R에 대해 작성된 매우 간단한 시뮬레이션이 있습니다.

set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

  n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
  n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

  n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
  n2b = rnorm(25, mean=.5, sd=1)

  n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
  n2c = rnorm(10, mean=.5, sd=1)

  power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
  power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
  power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261

모든 경우 이지만 첫 번째 경우 & 이고 두 번째 경우 & 이고 마지막 경우 및 입니다. 또한 표준화 된 평균 차이 / 데이터 생성 프로세스는 모든 경우에 동일하다는 점에 유의하십시오. 그러나 테스트는 50-50 샘플에 대해 70 %의 시간 동안 '중요한'것으로 나타 났지만 그룹 크기가 90-10 일 때 전력은 75-25에서 56 %, 33 %에 불과했습니다. n 1 = 50 n 2 = 50 n 1 = 75 n 2 = 25 n 1 = 90 n 2 = 10N=100n1=50n2=50n1=75n2=25n1=90n2=10

나는 이것을 유추하여 생각합니다. 당신이 사각형의 영역을 알고 싶어하고, 경계가 고정되어있는 경우 길이와 너비가 동일한 경우 (즉, 사각형이 경우, 다음 영역이 극대화됩니다 광장 ). 반면에, 직사각형이 길어짐에 따라 길이와 너비가 달라짐에 따라 면적이 줄어 듭니다.


힘은 극대화된다 ?? 잘 모르겠습니다. 가능한 경우 예를 들어 주시겠습니까?
PhD

5
t 검정이 동일하지 않은 표본 크기를 처리 할 수있는 이유는 각 그룹에 대한 평균 추정치의 표준 오차를 고려하기 때문입니다. 이것이 그룹 분포의 표준 편차를 그룹 표본 크기의 제곱근으로 나눈 것입니다. 모집단 표준 편차가 거의 같거나 거의 같으면 표본 크기가 훨씬 큰 goup은 표준 오차가 더 작습니다.
Michael Chernick 2016 년

@ gung-이 시뮬레이션이 쓰여진 '언어'를 정말로 잘 모르겠습니다. 'R'을 추측하고 있습니까? 그리고 나는 아직도 그것을 해독하려고 노력하고 있습니다 :)
PhD

2
코드는 R입니다. 쉽게 따라갈 수 있도록 댓글을 달았습니다. R이 있으면 복사하여 R에 붙여넣고 직접 실행할 수 있습니다. 이 set.seed()기능을 사용하면 동일한 출력을 얻을 수 있습니다. 여전히 따라하기 어려운 경우 알려주십시오.
gung-Monica Monica 복원

8
N=n1+n2n1×n2n1n2

10

@gung이 t- 검정을 언급하면서 언급 한 답변 외에도 베이지안 평가 시스템에 관심이있는 것 같습니다 (예 : 토론이 있습니다 ). 웹 사이트는 이러한 시스템을 사용하여받은 투표 수에 따라 다른 주문 항목의 순위를 지정할 수 있습니다. 기본적으로 이러한 시스템은 모든 항목의 평균 등급과 특정 개체에 대한 등급 샘플의 평균을 조합 한 등급을 지정하여 작동합니다. 등급 수가 증가하면 객체에 대한 평균에 할당 된 가중치가 증가하고 모든 항목의 평균 등급에 할당 된 가중치가 감소합니다. 아마도 베이지안 평균을 확인하십시오 .

물론 투표 사기, 시간이 지남에 따른 변경 등과 같은 광범위한 문제를 처리함에 따라 상황이 훨씬 더 복잡해질 수 있습니다.


단. 들어 본 적이 없어 확실히 살펴 볼게요. 어쩌면 그게 내가 결국은 :)
PhD
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.