샘플링 분포를 가르치기위한 전략


30

tl; dr 버전 입문 학부 수준에서 (예를 들어 표본 평균의) 표본 분포를 가르치기 위해 어떤 성공적인 전략을 사용하십니까?

배경

9 월에는 David Moore 의 기본 통계 실습을 사용하여 2 학년 사회 과학 (주로 정치 과학 및 사회학) 학생들을위한 입문 통계 과정을 가르치게 됩니다. 내가이 과정을 가르친 것은 다섯 번째 일 것이며, 내가 꾸준히 겪었던 한 가지 문제 는 학생들이 샘플링 분포의 개념으로 실제로 어려움을 겪고 있다는 것입니다 . 그것은 추론의 배경으로 덮여 (그들은 몇 가지 초기 딸꾹질 후 문제가하지 않는 것있는 가능성에 대한 기본적인 소개를 다음과 기본에 의해, 내 말은있어 기본-결국,이 학생들 중 많은 사람들이 "수학"이라는 모호한 힌트조차도 피하려고 노력했기 때문에 특정 과정 흐름에 스스로 선발되었습니다. 아마도 60 %는 최소한의 이해없이 과정을 떠나고, 약 25 %는 원리를 이해하지만 다른 개념과의 연결은 이해하지 않으며 나머지 15 %는 완전히 이해한다고 생각합니다.

주요 이슈

학생들이 겪는 어려움은 응용 프로그램과 관련이 있습니다. 그들이 단지 그것을 얻지 못한다고 말하는 것 외에 정확한 문제가 무엇인지 설명하는 것은 어렵습니다. 지난 학기의 설문 조사와 시험 응답에서 어려움의 일부는 두 개의 관련되고 유사한 발음 문구 (샘플링 분포 및 샘플 분포) 사이의 혼동이라고 생각하므로 "샘플 분포"라는 문구를 사용하지 않았습니다. 더 이상, 그러나 분명히 이것은 처음에는 혼란 스럽지만 약간의 노력으로 쉽게 파악할 수 있으며 어쨌든 샘플링 분포 개념의 일반적인 혼란을 설명 할 수 없습니다.

(나는 여기서 문제 가되는 것이 나와 내 가르침 일 수도 있음을 알고 있습니다! 그러나 일부 학생들은 그것을 얻는 것처럼 보이고 전체적으로 모든 사람들이 꽤 잘하는 것처럼 불편한 가능성을 무시하는 것이 합리적이라고 생각 합니다 ...)

내가 시도한 것

나는 우리 부서의 학부 관리자와 컴퓨터 실습실에서 필수 세션을 소개하기 위해 논쟁을해야했다. 반복 된 데모는 도움이 될 것이라고 생각했다. 이것이 과정의 전반적인 내용을 이해하는 데 도움이된다고 생각하지만,이 특정 주제에 도움이되지는 않습니다.

내가 가진 한 가지 아이디어는 단순히 그것을 가르치지 않거나 많은 무게를주지 않는 것입니다 (예 : Andrew Gelman ). 가장 일반적인 공통 분모에 대한 교육을 제공하고 통계적 적용에 대해 더 많이 배우고 자하는 강력하고 동기 부여 된 학생들을 샘플링 배포뿐만 아니라 어떻게 작동하는지 이해함으로써 통계적 적용에 대해 더 많이 배우기를 원하기 때문에 특히 만족스럽지 않습니다. ). 반면에 중간 값 학생은 예를 들어 p- 값을 파악하는 것처럼 보이므로 어쨌든 샘플링 분포를 이해할 필요가 없습니다.

질문

샘플링 분포를 가르치기 위해 어떤 전략을 사용하십니까? 나는 자료와 토론이 가능하다는 것을 알고 있지만 (예를 들어 여기여기 그리고 PDF 파일 을 여는이 논문 ) 사람들에게 무엇이 효과적인 지에 대한 구체적인 예를 얻을 수 있는지 궁금합니다. 시도하지 않을 것입니다!). 9 월 과정을 계획하면서 지금 내 계획은 Gelman의 조언을 따르고 표본 추출 분포를 "강조 표시"하는 것입니다. 나는 그것을 가르 칠 것이지만, 학생들에게 이것은 일종의 FYI 전용 주제이며 시험에 나타나지 않을 것입니다 (아마도 보너스 질문입니까?!). 그러나 저는 사람들이 사용한 다른 접근법을 듣는 데 정말로 관심이 있습니다.


비정규 모집단 분포를 사용하여 중앙 제한 정리를 표시 할 수도 있습니다.
user41270

죄송합니다. 아래 답변에 대한 의견이 있어야합니다.
user41270

답변:


23

제 생각에는 샘플링 분포는 통계 101의 핵심 아이디어입니다. 해당 문제를 건너 뛰는 것처럼 과정을 건너 뛸 수도 있습니다. 그러나, 나는 당신이 무엇을하든 학생들이 그것을 얻지 못한다는 사실에 매우 익숙합니다. 나는 일련의 전략을 가지고있다. 시간이 오래 걸릴 수 있지만 샘플링 분포에 대한 아이디어를 얻을 수 있도록 다른 주제를 건너 뛰거나 생략하는 것이 좋습니다. 다음은 몇 가지 팁입니다.

  • 명확하게 말하면 : 먼저 인구 분포, 표본 분포 및 표본 분포와 같은 3 가지 분포가 있습니다. 나는 이것을 수업 전반에 걸쳐 반복해서 말하고 과정 전반에 걸쳐 반복해서 말합니다. 때마다 나는이 용어가 나는 독특한 결말을 강조하는 말 : sam- PLE는 , samp- . (예, 학생들은 이것을 아프게합니다. 또한 개념도 얻습니다.)
  • 그림 (그림) 사용 : 이에 대해 이야기 할 때마다 사용하는 표준 그림이 있습니다. 세 가지 분포가 뚜렷하게 묘사되어 있으며 일반적으로 레이블이 붙어 있습니다. (이 그림과 함께 제공되는 레이블은 파워 포인트 슬라이드에 있으며 간단한 설명이 포함되어 있으므로 여기에 표시되지 않지만 상단에는 모집단, 샘플, 샘플링 분포가 있습니다.)
    여기에 이미지 설명을 입력하십시오
  • 학생들에게 활동을 준다 : 이 개념을 처음 소개 할 때, 얼마나 많은 양의 nickles (일부 분기가 사라질 수 있음)를 가져 오거나 6 면체 주사위를 가져 오십시오. 학생들에게 작은 그룹으로 구성하고 10 개의 값을 만들어 평균을 내도록합니다. 그런 다음 보드 또는 Excel에서 히스토그램을 만들 수 있습니다.
  • 애니메이션 (시뮬레이션)을 사용하십시오 : 데이터를 생성하고 실제로 표시하기 위해 R에 (비효율적으로) 일부 코드를 작성합니다. 이 부분은 중앙 한계 정리 설명으로 전환 할 때 특히 유용합니다. ( Sys.sleep()성명서에 이러한 일시 중지는 각 단계에서 무슨 일이 일어나고 있는지 설명 할 수있는 순간을 제공합니다.)
N = 10
number_of_samples = 1000


iterations  = c(3, 7, number_of_samples)  
breakpoints = seq(10, 91, 3)  
meanVect    = vector()  
x           = seq(10, 90)  
height      = 30/dnorm(50, mean=50, sd=10)  
y           = height*dnorm(x, mean=50, sd=10)  

windows(height=7, width=5)  
par(mfrow=c(3,1), omi=c(0.5,0,0,0), mai=c(0.1, 0.1, 0.2, 0.1))  

for(i in 1:iterations[3]) {  
  plot(x,y, type="l", col="blue", axes=F, xlab="", ylab="")  
  segments(x0=20, y0=0, x1=20, y1=y[11], col="lightgray")  
  segments(x0=30, y0=0, x1=30, y1=y[21], col="gray")  
  segments(x0=40, y0=0, x1=40, y1=y[31], col="darkgray")  
  segments(x0=50, y0=0, x1=50, y1=y[41])  
  segments(x0=60, y0=0, x1=60, y1=y[51], col="darkgray")  
  segments(x0=70, y0=0, x1=70, y1=y[61], col="gray")  
  segments(x0=80, y0=0, x1=80, y1=y[71], col="lightgray")  
  abline(h=0)  

  if(i==1) {  
    Sys.sleep(2)  
  }  
  sample = rnorm(N, mean=50, sd=10)  
  points(x=sample, y=rep(1,N), col="green", pch="*")  

  if(i<=iterations[1]) {  
    Sys.sleep(2)  
  }  
  xhist1 = hist(sample, breaks=breakpoints, plot=F)  
  hist(sample, breaks=breakpoints, axes=F, col="green", xlim=c(10,90),  
       ylim=c(0,N), main="", xlab="", ylab="")  
  if(i==iterations[3]) {  
    abline(v=50)  
  }  

  if(i<=iterations[2]) {  
    Sys.sleep(2)  
  }  
  sampleMean = mean(sample)  
  segments(x0=sampleMean, y0=0, x1=sampleMean,   
           y1=max(xhist1$counts)+1, col="red", lwd=3)  

  if(i<=iterations[1]) {  
    Sys.sleep(2)  
  }  
  meanVect = c(meanVect, sampleMean)  
  hist(meanVect, breaks=x, axes=F, col="red", main="",   
       xlab="", ylab="", ylim=c(0,((N/3)+(0.2*i))))  
  if(i<=iterations[2]) {  
    Sys.sleep(2)  
  }  
}  

Sys.sleep(2)  
xhist2 = hist(meanVect, breaks=x, plot=F)  
xMean  = round(mean(meanVect), digits=3)  
xSD    = round(sd(meanVect), digits=3)  
histHeight = (max(xhist2$counts)/dnorm(xMean, mean=xMean, sd=xSD))  
lines(x=x, y=(histHeight*dnorm(x, mean=xMean, sd=xSD)),   
      col="yellow", lwd=2)  
abline(v=50)  

txt1 = paste("population mean = 50     sampling distribution mean = ",  
             xMean, sep="")  
txt2 = paste("SD = 10     10/sqrt(", N,") = 3.162     SE = ", xSD,  
            sep="")  
mtext(txt1, side=1, outer=T)  
mtext(txt2, side=1, line=1.5, outer=T)  
  • 학기 내내 이러한 개념을 다시 설명합니다. 다음 주제에 대해 이야기 할 때마다 샘플링 분포에 대한 아이디어를 다시 제시합니다 (일반적으로 아주 짧지 만). 귀무 가설의 경우 실제로 동일한 모집단 분포에서 여러 번 샘플링 한 상황이 존재하고 그룹 평균 집합이 실제로 경험적 샘플링 분포이므로 ANOVA를 가르치는 가장 중요한 장소입니다. (이에 대한 예는 여기 내 답변을 참조하십시오 : 표준 오류는 어떻게 작동합니까? )

1
이것은 좋은 대답입니다 (+1). 특히 활동과 시뮬레이션이이 주제를 가르치는 데 매우 유용하다고 생각합니다. 입문 과정에서 몇 번 우리는 웹 애플릿을 사용하여 학생들이 표본에서 통계가 계산되는 방식과 샘플링 분포의 히스토그램이 어떻게 여러 번 반복되는지 시각화 할 수 있도록 웹 애플릿을 사용했습니다. 나는 샘플링 분포를 이해하기 위해 학생들에게 말한 것보다 훨씬 더 많은 활동이 도움이되었다고 생각합니다. :)
Macro

+1 감사합니다 Gung, 그거 좋은 답변입니다! 또한 "나에게 codez를 보내"에 대한 감사 (NB. Mac 사용자 교체 windows(...)와 함께 quartz(...)). 학기 내내 개념을 강화하는 것에 대한 요점은 특히 도움이됩니다. 이 지침을 따르는 것이 정말 유용 할 것입니다.
smillig

"3 분포"만트라 및 관계형 그림의 경우 (+1). 누구도 개념이 실제로는 다른 개념 이라는 것을 먼저 이해하지 않고서는 개념을 이해할 수 없습니다 .
Alecos Papadopoulos 16:10에

샘플링 배포에 대한 라이스 대학교의 " 온라인 통계 서적 "페이지가 이것에 매우 도움 이된다는 것을 알았습니다 . 수년 전의 오리지널 버전은 Java 애플릿을 특징으로하지만 최근에 Javascript로 다시 만든 것을 기쁘게 생각합니다. 작동 방식은 기본적으로 다이어그램과 동일합니다.
Silverfish 2016 년

8

학생들에게 샘플링 분포는 랜덤 샘플을 기반으로 한 테스트 통계의 분포라는 점을 상기시켜주었습니다 . 학생들에게 샘플링 과정 자체에서 일어날 일에 대해 극심한 경우에 중점을 두도록 생각하게합니다. 예를 들어, 샘플링 프로세스가 항상 동일한 (특별한) 부분 집합을 선택한 경우 "샘플링 분포"는 어떤 모양입니까? 그런 다음 샘플링 프로세스에서 두 개의 특정 (특별한) 하위 집합 (각각 확률이 1/2 인) 만 선택한 경우 "샘플링 분포"가 어떻게 보이는지 고려할 것입니다. 이것들은 표본 평균 (특히 기초 집단에 대한 "특별한"선택의 경우)을 다루는 것이 매우 간단합니다.

나는 (분명히 모든 것은 아님) 일부 학생들에게 샘플링 분포가 인구 분포와 매우 다를 수 있다는 생각에 도움이 될 것 같습니다. 또한 Michael Chernick이 언급 한 중심 한계 정리 예제를 사용했습니다. 특히 명확하지 않은 분포 (시뮬레이션이 실제로 도움이되는 것처럼 보임)에서 성공했습니다.


Graham Cookson은 "교실 통계 개념에 대해 가장 좋아하는 평신도의 설명은 무엇입니까?" -커뮤니티 위키.
shoda

+1, 비 랜덤 샘플의 샘플링 분포에 대해 이야기하는 것이 좋습니다.
gung-복직 모니카

+1 서브 세트 선택에 대한 좋은 아이디어! 나는 이것이 당신이 @shoda를 언급하는 링크라고 생각합니다 : stats.stackexchange.com/a/554/9249
smillig

7

나는 확률의 가르침으로 다시 시작합니다. 나는 많은 공식적인 정의와 규칙에 들어 가지 않지만 (시간이 충분하지는 않지만) 시뮬레이션으로 확률을 보여줍니다. Monty Hall 문제는 사용하기에 좋은 예입니다. 시뮬레이션을 통해 (그리고 논리에 대한 후속 조치를 통해) 전환 전략이 승리 확률이 높다는 것을 보여줍니다. 시뮬레이션을 통해 전략을 평가하기 위해 위험이나 보상없이 여러 번 게임을 할 수 있었으며 더 나은 전략을 선택할 수있게되었습니다. 더 나은 전략을 선택하는 것이 승리를 보장하지는 않지만 더 나은 기회를 제공하고 전략 중에서 선택하는 데 도움이됩니다. 그런 다음이 과정이 나머지 과정에 어떻게 적용되는지는 임의의 구성 요소가있는 곳에서 전략을 선택하는 데 도움이되며,

그런 다음 샘플링 분포를 소개 할 때 다시 시뮬레이션으로 시작하여 전략을 개발하고 싶다고 말합니다. Monty Hall 문제와 마찬가지로 실생활에서는 하나의 샘플 만 수집 할 수 있지만 전략 개발에 도움이되도록 많은 샘플을 시뮬레이션 할 수 있습니다. 그런 다음 동일한 모집단 (이 경우 알려진 모집단)의 많은 표본에 대한 시뮬레이션을 표시하고 시뮬레이션 (학습 샘플 표본의 히스토그램)에서 배운 관계 (샘플 평균이 평균 평균 주위에 군집 됨)를 보여줍니다. 더 큰 샘플의 경우 샘플링 분포의 표준 편차가 작을수록 더 큰 샘플의 경우 더 일반적입니다. 게임 전략 대신 몬티 홀 (Monty Hall) 문제가 샘플 수단에 적용되었던 것과 같은 아이디어를 선택하기 위해 시뮬레이션을 반복하여 전략을 선택하는 것에 대해 이야기 할 때마다 계속했습니다. 그런 다음 공식 규칙을 보여주고 시뮬레이션 외에도 수학적으로 증명할 수 있다고 말하지만 전체 수업에 대한 증거를 침해하지는 않습니다. 나는 그들이 수학적 증거를 정말로보고 싶다면 그들이 근무 시간에 올 수 있고 나는 그들에게 수학을 보여줄 것이라고 제안합니다. (입문 강의에서 아무도 나를 아직 받아들이지 않았습니다).

우리가 추론을 할 때 우리는 게임을 최대 1 회만하는 것처럼 실제 세계에서 오직 하나의 샘플 만 채취 할 수 있다고 말하지만 시뮬레이션에서 배운 전략을 사용할 수 있습니다 선택한 특성 (올바른 기회)을 제공하는 전략 (z- 검정, t- 검정 또는 CI 공식)을 개발하기위한 많은 표본. 게임과 마찬가지로, 우리는 최종 결론이 올바른지 시작하기 전에 알지 못하지만 (일반적으로 우리는 여전히 나중에 알지 못합니다) 시뮬레이션과 샘플링 분포에서 장기 확률이 무엇을 사용하는지 알고 있습니다 그 전략.

학생의 100 %가 완벽하게 이해하고 있습니까? 아니요,하지만 더 많은 사람들이 시뮬레이션 및 수학 규칙을 사용하여 (책을 보지 않아도되고, 책 / 강사를 믿기 만하면된다는) 일반적인 전략과 공식을 선택할 수 있다는 일반적인 아이디어를 얻습니다 원하는 속성.


+1이 조언을 공유해 주셔서 감사합니다. 샘플링 분포가 무엇인지에 대해 우리가 가르 칠 수있는 것과 단일 샘플에서 추론하기 위해 외삽하는 방법 사이의 연결 고리라는 문제로 문제를 해결했다고 생각합니다 . 당신 (그리고 여기의 다른 사람들)이 제안했듯이, 과정 전반에 걸쳐 개념을 반복해서 반복하는 것이 중요하지만 자주는 아닙니다 (적어도 나에 의해, 아마도 내가 원하는 모든 것에 적합하기에 충분히 어려워서 아마도 이미 다룬 개념으로 돌아가는 것은 물론입니다!).
smillig

3

이것은 매우 중요하고 잘 생각 된 문제입니다. 샘플링 분포의 개념은 추론을 이해하는 데 기본적으로 다르며 반드시 가르쳐야한다고 생각합니다.

나는 특히 생물 통계학에 대한 많은 입문 통계 과정을 가르쳤다. 나는 표본 추출 분포의 개념을 가르치고, 내가 생각하는 접근법이 있지만, 그것들이 얼마나 성공적 이었는지를 결정하기 위해 실제로 좋은 피드백을 얻지 못한다. 어쨌든 여기에 내가하는 일이 있습니다.

먼저 간단한 정의를 시도합니다. 표본 추출 분포는 표본 과정이 여러 번 반복 된 경우 검정 통계량의 분포입니다. 데이터가 생성 된 것으로 가정되는 인구 분포에 따라 다릅니다.

비록 이것이 내가 제공 할 수있는 단순한 정의에 관한 것이라고 생각하지만, 그것이 매우 단순하지 않다는 것을 인식하고 대부분의 경우 개념에 대한 이해가 즉시 이루어질 수는 없습니다. 따라서 정의와 함께 말한 것을 강화하는 기본 예제로 이것을 따르십시오.

내가 사용하는 예는 평균 μ와 분산 σ 를 갖는 정규 분포로 독립적이고 동일하게 분포 된 크기 n의 표본입니다. 그런 다음 표본 평균은 평균에 대한 점 추정치로 사용되거나 검정 통계량을 형성하는 데 사용됩니다 평균은 평균 μ 및 분산 σ / n에서 정규적인 샘플링 분포를 갖습니다 .222

그런 다음 중요한 응용 프로그램 인 중앙 제한 정리로이 작업을 수행합니다. 가장 간단한 용어로, 중앙 한계 정리는 정규적이지 않은 많은 분포에 대해 표본 크기 n이 클 때 표본 평균에 대한 표본 분포가 정규 분포에 가깝습니다. 이것을 설명하기 위해 균일 한 분포 (이중 분포도 살펴 보는 것이 좋을 것)를 취하고 평균의 표본 분포가 3, 4, 5, 10 및 100의 표본 크기에 대해 어떻게 보이는지 보여줍니다. 분포의 모양은 작은 n에 대해 전혀 보이지 않는 것에서 큰 n에 대한 정규 분포와 매우 유사한 것으로 변합니다.

학생들에게 이러한 샘플링 분포가 실제로 이러한 모양을 가지고 있음을 확신시키기 위해 학생들은 다양한 크기의 많은 샘플을 생성하는 시뮬레이션을 수행하고 샘플 평균을 계산합니다. 그런 다음 평균의 이러한 추정치에 대한 히스토그램을 생성하게하십시오. 또한 Quincunx 보드를 사용하여 이것이 어떻게 작동하는지 보여주는 실제 데모를 적용하는 것이 좋습니다. 이 작업을 수행하는 동안 각 레벨에서 왼쪽 또는 오른쪽으로 갈 확률이 1/2 인 독립 Bernoulli 시험의 합의 샘플을 장치가 생성하는 방법을 지적합니다. 하단의 결과 스택은이 샘플링 분포 (이항식)에 대한 히스토그램을 나타내며, quincunx의 하단에 많은 수의 공이 닿은 후 그 모양이 거의 정상적인 것처럼 보일 수 있습니다.


소중한 제안에 감사드립니다. 나는 실제적인 실제 데모의 아이디어를 정말로 좋아하고 이것과 같은 것을 분명히 시도 할 것입니다. (얼굴을 오랫동안 페이스 북에서 산만하게 할 수 있다고 가정합니다 ...) 머리! 감사.
smillig

1
그러나 실험에서 정규 분포 형태를 보는 것은 실제로 눈을 뜨게합니다. 제가 어렸을 때 (약 10 살) 시카고 과학 박물관에서이 중 하나를 처음으로 보았습니다. 그때 통계에 대해 아무것도 몰랐지만 곡선을 잊지 않았다.
Michael R. Chernick

1

나는 가방에 숫자의 '인구'를 넣는 것이 좋다고 생각합니다 (예 : 1-10 범위). 자신의 타일을 만들거나 동전, 카드 놀이 등을 사용할 수 있습니다.

학생들이 그룹 (5 명 이상)으로 앉게하고 각각 가방에서 숫자를 골라냅니다. 그런 다음 각 그룹은 해당 그룹의 평균값을 계산합니다. 이전에 모집단 평균을 계산하여 히스토그램에 플로팅하고 각 그룹의 구성원이 와서 히스토그램에 샘플 평균을 플로팅하도록합니다. '히스토그램을 만들기'위해이 운동을 몇 번하도록한다.

그런 다음 모집단 평균 주위의 표본 평균 변동을 그래픽으로 표시 할 수 있습니다. 모집단 평균과 비교하여 표본 평균의 변동을 계산하십시오. 저는 학생들이 그러한 실제 연습을했던 것을 분명히 기억하고 있으며 그 결과 표본 변동의 개념이 더 쉽게 그들에게 돌아올 것이라고 생각합니다. 약간 유치한 것처럼 들릴 수도 있지만 학생들은 때때로 활동적인 일을하기위한 변화를 좋아합니다. 통계에서 이런 일을 할 기회가 많지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.