작은 샘플에서 무작위 추출이 신뢰할 수 있습니까?


11

Jerome Cornfield는 다음과 같이 썼습니다.

피셔 혁명의 가장 훌륭한 결과 중 하나는 무작위 화라는 아이디어였으며, 다른 것에 거의 동의하지 않는 통계 학자들은 적어도 이것에 동의했습니다. 그러나 이러한 합의에도 불구하고 임상 및 다른 형태의 실험에서 무작위 배정 절차의 광범위한 사용에도 불구하고, 논리적 상태, 즉 그것이 수행하는 정확한 기능은 여전히 ​​모호하다.

제롬 옥수수 밭 (1976). "임상 시험에 대한 최근 방법 론적 기여" . 미국 전염병학 저널 104 (4) : 408–421.

이 사이트와 다양한 문헌에서 나는 무작위 화의 힘에 대한 자신감있는 주장을 지속적으로 봅니다. " 혼동 변수의 문제를 제거 합니다 "와 같은 강력한 용어 가 일반적입니다. 예를 들어 여기를 참조 하십시오 . 그러나 실용적 / 윤리적 이유로 작은 샘플 (그룹당 3-10 개의 샘플)을 사용하여 여러 번 실험을 수행합니다. 이것은 동물과 세포 배양을 이용한 전임상 연구에서 매우 흔하며 연구자들은 일반적으로 결론을 뒷받침하는 p 값을보고합니다.

이것은 혼란스런 균형을 잡는 데 무작위 배정이 얼마나 좋은지 궁금해했습니다. 이 그림에서 나는 50/50 확률로 두 값을 취할 수있는 하나의 혼란과 치료 그룹과 대조군을 비교하는 상황을 모델링했다 (예 : type1 / type2, male / female). 다양한 작은 샘플 크기의 연구에 대한 "불균형 % (%)"(처리 및 대조 샘플 간의 유형 1 수의 차이를 샘플 크기로 나눈 값)의 분포를 보여줍니다. 빨간 선과 오른쪽 축은 ecdf를 보여줍니다.

작은 표본 크기에 대한 무작위 추출에서 다양한 균형 정도의 가능성 : 여기에 이미지 설명을 입력하십시오

이 줄거리에서 두 가지가 분명합니다 (어딘가를 엉망으로 만들지 않는 한).

1) 샘플 크기가 증가하면 정확하게 균형 잡힌 샘플을 얻을 확률이 줄어 듭니다.

2) 샘플 크기가 클수록 매우 불균형 한 샘플을 얻을 확률이 줄어 듭니다.

3) 두 그룹 모두에 대해 n = 3 인 경우, 완전히 불균형 한 그룹 세트 (대조군의 모든 유형 1, 치료의 모든 유형 2)를 얻을 확률이 3 %입니다. N = 3은 분자 생물학 실험에서 일반적입니다 (예 : PCR로 mRNA 측정, 또는 웨스턴 블롯으로 단백질 측정)

n = 3 사례를 추가로 조사했을 때 이러한 조건에서 p 값의 이상한 동작을 관찰했습니다. 왼쪽은 type2 부분 군에 대해 서로 다른 평균 조건에서 t- 검정을 사용하여 계산 한 p 값의 전체 분포를 보여줍니다. type1의 평균은 0이고 두 그룹의 경우 sd = 1입니다. 오른쪽 패널은 공칭 "유의 컷오프"에 대한 해당 오 탐지율을 .05에서 .0001까지 보여줍니다.

t 테스트 (10000 몬테 카를로 실행)를 통해 비교할 때 두 개의 하위 그룹과 두 번째 하위 그룹의 다른 평균을 갖는 n = 3에 대한 p- 값 분포 : 여기에 이미지 설명을 입력하십시오

두 그룹 모두 n = 4에 대한 결과는 다음과 같습니다. 여기에 이미지 설명을 입력하십시오

두 그룹 모두 n = 5 인 경우 : 여기에 이미지 설명을 입력하십시오

두 그룹 모두 n = 10 인 경우 : 여기에 이미지 설명을 입력하십시오

위의 차트에서 볼 수 있듯이 표본 크기와 하위 그룹 간의 차이가 상호 작용하여 귀무 가설 하에서 다양한 p- 값 분포가 균일하지 않은 것으로 나타납니다.

그렇다면 표본 크기가 작은 무작위 배정 및 통제 된 실험에 p- 값이 신뢰할 수 없다는 결론을 내릴 수 있습니까?

첫 줄거리의 R 코드

require(gtools)

#pdf("sim.pdf")
par(mfrow=c(4,2))
for(n in c(3,4,5,6,7,8,9,10)){
  #n<-3
  p<-permutations(2, n, repeats.allowed=T)

  #a<-p[-which(duplicated(rowSums(p))==T),]
  #b<-p[-which(duplicated(rowSums(p))==T),]

  a<-p
  b<-p

  cnts=matrix(nrow=nrow(a))
  for(i in 1:nrow(a)){
    cnts[i]<-length(which(a[i,]==1))
  }


  d=matrix(nrow=nrow(cnts)^2)
  c<-1
  for(j in 1:nrow(cnts)){
    for(i in 1:nrow(cnts)){
      d[c]<-cnts[j]-cnts[i]
      c<-c+1
    }
  }
  d<-100*abs(d)/n

  perc<-round(100*length(which(d<=50))/length(d),2)

  hist(d, freq=F, col="Grey", breaks=seq(0,100,by=1), xlab="% Unbalanced",
       ylim=c(0,.4), main=c(paste("n=",n))
  )
  axis(side=4, at=seq(0,.4,by=.4*.25),labels=seq(0,1,,by=.25), pos=101)
  segments(0,seq(0,.4,by=.1),100,seq(0,.4,by=.1))
  lines(seq(1,100,by=1),.4*cumsum(hist(d, plot=F, breaks=seq(0,100,by=1))$density),
        col="Red", lwd=2)

}

플롯 2-5에 대한 R 코드

for(samp.size in c(6,8,10,20)){
  dev.new()
  par(mfrow=c(4,2))
  for(mean2 in c(2,3,10,100)){
    p.out=matrix(nrow=10000)

    for(i in 1:10000){

      d=NULL
      #samp.size<-20
      for(n in 1:samp.size){
        s<-rbinom(1,1,.5)
        if(s==1){
          d<-rbind(d,rnorm(1,0,1))
        }else{
          d<-rbind(d,rnorm(1,mean2,1))
        }
      }

      p<-t.test(d[1:(samp.size/2)],d[(1+ samp.size/2):samp.size], var.equal=T)$p.value

      p.out[i]<-p
    }


    hist(p.out, main=c(paste("Sample Size=",samp.size/2),
                       paste( "% <0.05 =", round(100*length(which(p.out<0.05))/length(p.out),2)),
                       paste("Mean2=",mean2)
    ), breaks=seq(0,1,by=.05), col="Grey", freq=F
    )

    out=NULL
    alpha<-.05
    while(alpha >.0001){

      out<-rbind(out,cbind(alpha,length(which(p.out<alpha))/length(p.out)))
      alpha<-alpha-.0001
    }

    par(mar=c(5.1,4.1,1.1,2.1))
    plot(out, ylim=c(0,max(.05,out[,2])),
         xlab="Nominal alpha", ylab="False Postive Rate"
    )
    par(mar=c(5.1,4.1,4.1,2.1))
  }

}
#dev.off()

조건과 문제에 대한 설명이 처음에는 이해하기 조금 어렵다는 것을 알았습니다. 유형 I 및 유형 II는 유형 1 하위 그룹 및 유형 2 하위 그룹의 사용법과 다른 기술 용어입니다. 내가 알 수있는 한 혼합 된 평균을 가진 분포의 데이터에 t- 검정을 적용하고 있습니다. 맞습니까?
Michael Lew

예, 두 정규 분포가 혼합되어 있습니다. "type1"은 N (0,1)을 나타내고, type2는 N (평균 2,1)입니다. 여기서 mean2 = (2,3,10 또는 100)입니다. 도움이 될 것이라고 생각되면 typeA, typeB로 변경할 수 있습니다.
플라스크

답변:


4

아주 작은 샘플에 대해 알려지지 않은 혼란 변수를 처리 할 때 무작위 배정의 한계를 지적하는 것이 맞습니다. 그러나 문제는 P- 값이 신뢰할 수 없다는 것이 아니라 그 의미가 표본 크기와 방법의 가정과 모집단의 실제 속성 간의 관계에 따라 달라진다는 것입니다.

귀하의 결과에 대한 나의 견해는 부분 군 평균의 차이가 너무 커서 모든 합리적인 실험자가 실험을 수행하기 전에 문제가 있음을 알 때까지 P- 값이 상당히 잘 수행되었다는 것입니다.

데이터의 본질에 대한 적절한 이해없이 실험이 수행되고 분석 될 수 있다는 생각은 잘못되었습니다. 작은 데이터 집합을 분석하기 전에 분석에 내재 된 가정을 자신있게 방어 할 수 있도록 데이터에 대해 충분히 알고 있어야합니다. 이러한 지식은 일반적으로 동일하거나 유사한 시스템을 사용하는 사전 연구, 공식적으로 출판 된 연구 또는 비공식적 인 '예비'실험에서 비롯됩니다.


나는 당신이 말한 모든 것에 동의하지만, Gerd Gigerenzer가 말한 것처럼 t- 테스트는 종종 "의식적으로"수행됩니다. 실제로 이러한 테스트를 수행하는 사람들은 자신이하는 일의 뉘앙스를 이해하기위한 시간 / 경향이 없습니다. 이런 이유로 나는 "신뢰할 수없는"형용사가 적합하다고 생각합니다. 나는 당신이 분포에 대해 질문 할 때 (높은 분포가 있었거나 그 큰 오차 막대를 일으킨 원인은 무엇입니까?)
플라스크

1
음, P- 값이 실제로 '의미'인 것은 대부분의 사람들이 가정하는 것과는 다소 다릅니다. 심지어 P- 값이 '증거와 양립 할 수 없다'고 비판하는 많은 논문들조차도 착각합니다. 어제 arXiv에 논문을 올렸습니다. P- 값의 속성을 살펴보고 실험자가 사용할 수있는 증거 유형과 어떤 관련이 있는지 보여줍니다. 제목은 'P에 P 또는 P에 : P- 값의 증거 적 특성과 과학적 추론의 장소'에 있으며 arXiv 제출 번호는 826269입니다. 월요일부터 사용할 수 있습니다.
Michael Lew

어떤 이유로 든 사랑을 얻지 못한이 질문을 살펴 볼 수 있습니까? . 나는 p 값이 뭔가 이고 당신의 논문이 그것을 밝히는 데 도움이 될 수 있다는 데 동의 하지만, 연구원으로서 나는 지상 POV의 부츠가 그들이 우리를 실패했다는 것을 분명히해야합니다. 잘못 사용하거나 타고난 부적절 함으로 인해 이것은 확실하지 않습니다. 나는 통계 학자들의 관점을 얻기 위해 여기에 일련의 질문을 해왔다.
플라스크

2

생태 학적 연구에서, 실험 단위 (피험자)에 대한 치료의 비 랜덤 할당은 표본 크기가 작고 하나 이상의 혼란스러운 변수의 증거가있을 때 표준 관행입니다. 이 비 랜덤 할당은 잠재적으로 혼란스러운 변수의 스펙트럼에 걸쳐 대상을 "삽입"합니다. 이는 정확히 임의 할당이 수행하는 것입니다. 그러나 표본 크기가 작을수록 무작위 배정이 위와 같이 성능이 저하 될 가능성이 높으므로 이에 의존하는 것은 좋지 않습니다.

무작위 배정은 대부분의 분야에서 강력하게 옹호되기 때문에 (그리고 당연히) 최종 목표는 엄격한 무작위 배정을 고수하기보다는 편향을 줄이는 것임을 잊기 쉽습니다. 그러나 연구자 (들)는 혼란스러운 변수들을 효과적으로 특성화하고 실험 결과에 대해 맹목적이며 가용 한 모든 정보와 맥락을 이용하는 방어 불가능한 방식으로 비 랜덤 할당을 수행해야한다.

요약은 Hurlbert, Stuart H. 1984의 192-198 페이지를 참조하십시오 . 의사 복제 및 현장 실험 설계. 생태학 논문 54 (2) pp.187-211.


나는 이것을 읽는 것을 즐겼지만, 두 번째 단락에서 "바이어스"를 사용하는 것은 그 용어가 당신의 진술을 부정확하게 만드는 특정한 통계적 의미를 가지고 있기 때문에 오해 될지도 모른다는 것에 우려하고있다. 무작위 배정은 편견을 줄이는 것보다는 (견적 자의 부정확성의 척도) 혼동 (구어 적 의미에서 "바이어스"의 형태) 을 방지하기위한 것이라고 말하지 않습니까?
whuber

통계적 의미에서 편견을 언급하고 있습니다. 통계에서 "바이어스"는 통계량과 추정 된 모수의 차이입니다. 언급했듯이 추정기의 편향은 추정기의 예상 값과 추정하는 모수의 실제 값 간의 차이입니다. 필자의 글에서“바이어스 (bias)”는 데이터로부터 계산 된 통계와 그들이 추정하는 모수 사이의 차이 (예 : 표본 평균 (x bar)와 실제 평균 (mu))를 언급했습니다.
대런 제임스

내가 아는 한, 무작위 샘플링은 바이어스를 줄이기 위해 사용되지 않으며 많은 경우 바이어스가 감소한다고 주장 할 수 없습니다.
whuber

당신은 착각합니다. 무작위 추출의 주요 목표는 독립의 효과를 시뮬레이션하는 것입니다. 이는 대상에게 치료를 체계적으로 할당함으로써 발생하는 편견을 제거함으로써이를 수행합니다. 이러한 치우침은 부정확 한 추정치 (가장 중요한 치우친 분산 추정치)와 유형 I 및 II 오류에 대한 통제력 상실을 초래합니다. 혼란스러운 변수조차도 (실제로 독립성이 결여되어 있음) 단순히 변수 바이어스가 생략 된 경우입니다. 그러나 당신은 이것에 대해 내 말을 할 필요가 없습니다 ... 위의 Hurlburt 논문에 확신이 없다면, 다음과 같은 다른 참고 자료를 참고하십시오.
Darren James

Cochran, WG 및 GM Cox. 실험 설계. 뉴욕 : 와일리. 페더러, WT 1955. 실험 설계. 뉴욕 : 맥밀런. Hinkelmann, K. 및 Kempthorne, O. 1994. 실험 설계 및 분석. 와일리 : 뉴욕. Kuehl, RO 2000. 실험 설계 : 연구 설계 및 분석의 통계 원칙. 캘리포니아 주 벨몬트 : Brooks / Cole.
대런 제임스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.