학부생에게 보여줄 좋은 예는 무엇입니까?


9

저는 이번 학기 후반의 CS 보조 학부생들에게 통계를 가르치려고합니다. 대부분의 학생들은 수업을 들으면서 과목을 배우려는 동기가없고 주요 요구 사항에 대해서만 수업을 들었습니다. B +를 통과하는 법을 배우는 수업뿐만 아니라 주제를 흥미롭고 유용하게 만들고 싶습니다.

순수한 수학 박사 학생으로서 나는 실제 적용 측면에 대해 거의 알지 못했습니다. 학부 통계의 실제 응용 프로그램을 요청하고 싶습니다. 내가 찾고있는 예는 다음과 같습니다 (정신적으로).

1) 중심 한계 정리를 보여주는 것은 특정 큰 표본 데이터에 유용합니다.

2) 중심 한계 정리가 적용되지 않는 반례를 제시하십시오 (예 : Cauchy 배포 후의 정리).

3) Z- 검정, t- 검정 등을 사용하여 유명한 실제 사례에서 가설 검정이 작동하는 방식을 보여줍니다.

4) 과적 합 또는 잘못된 초기 가설이 어떻게 잘못된 결과를 낳을 수 있는지 보여줍니다.

5) (잘 알려진) 실제 사례에서 p- 값과 신뢰 구간이 어떻게 작동했는지와 잘 작동하지 않는 곳을 보여줍니다.

6) 마찬가지로 유형 I, 유형 II 오류, 통계 검정력, 기각 수준 등α

내 문제는 확률 측면 (동전 던지기, 주사위 던지기, 도박꾼의 망치, 마틴 갈 레스, 랜덤 워크, 3 명의 죄수의 역설, 몬티 홀 문제, 알고리즘 설계의 확률 방법 등)에 대한 많은 예를 가지고 있지만 통계 측면에서 많은 표준 예제. 내가 의미하는 것은 교육 학적 가치가있는 진지하고 흥미로운 예이며, 실제로 인위적으로 분리되어있는 것처럼 인위적으로 구성되지는 않습니다. Z-test와 t-test가 전부라는 잘못된 인상을 학생들에게주고 싶지 않습니다. 그러나 내 순수한 수학 배경으로 인해 수업을 흥미롭고 유용하게 만들 수있는 충분한 예를 알지 못합니다. 그래서 나는 도움을 찾고 있습니다.

제 학생의 수준은 미적분학 I과 미적분학 II입니다. 그들은 수 없습니다 심지어 그들이 가우시안 커널을 평가하는 방법을 알고하지 않는 한 표준 정규의 분산은 정의에 의해 1 보여준다. 따라서 약간의 이론적 또는 실습 계산 (예 : 초 기하 분포, 1D 랜덤 보행의 아크 신 법칙)은 작동하지 않습니다. 나는 그들이 어떻게 "어떻게"뿐만 아니라 "왜"를 이해할 수있는 몇 가지 예를 보여주고 싶다. 그렇지 않으면 나는 협박으로 말한 것을 증명할 것인지 확실하지 않습니다.


2
이것이 의미하는 바는 "폭 넓은 학부 통계의 실제 적용"은 QA 형식에 특히 적합하지 않은 것 같습니다. 기껏해야 '큰 목록'질문입니다. (3) 혼자서 너무 넓고 초점이 맞지 않을 수 있지만 약간의 표현이있는 사람이 될 수 있고 (4) 조금 더 초점을두면 충분히 잘 자립 할 수 있습니다. (1) 중앙 한계 정리는 실제로 또는 또는 에서 발생하는 일에 대해 아무 것도 알려주지 않기 때문에 어떤 경우에도 성공할 수 없습니다 . 유한 샘플 결과가 아닙니다. =100=1000=1010
Glen_b-복지 주 모니카

3
Berry-Esseen 정리 (나는 당신이 그 수준에서 가르치지 않을 것으로 예상합니다) 유한 샘플과 함께 사용될 있습니다. 비공식적으로, 특정 분포의 표본 평균은 표본 크기가 증가함에 따라 점점 더 일반화되었지만 CLT는 실제로 그것에 대해 아무 것도 말하지 않기 때문에 실제로 "중앙 한계 정리"라고 말할 수는 없습니다. 또한 정규 분포에 꾸준히 가까워 지려면 일련의 표본 크기가 필요합니다. 실제 데이터 수집에서는 시간이 지남에 따라 수집 된 데이터에만 공통적 인 것이기 때문에 iid를 가정하면 약간의 어려움이있을 수 있습니다.
Glen_b-복지 주 모니카

2
실제 데이터 (실험에서-다소 인공적인 경우) 세트
-40000

1
표본 크기가 커질 때 특정 상황에서 표본의 평균 작동 방식에 대해 설명 할 수 있습니다. 이는 매우 유용합니다. CLT에 속한다고 정확하게 정확하지는 않습니다. 동전 던지기 데이터가 유용 할 수 있습니다 (데이터가 유사한 방식으로 자체 생성 될 수 있음). 데이터의 중요한 기능이 있기 때문에 데이터를 가져 오기 전에 링크에서 정보를 읽으려고 할 수 있습니다 (데이터를 수집하는 동기이기도 함).
Glen_b-복지 주 모니카

1
목록에있는 거의 모든 것의 예는 Freedman, Pisani, & Purves 와 같은 좋은 소개 통계 텍스트로 제공됩니다 . (저는 10 달러 미만의 가격으로 쉽게 구할 수있는 제 3 판에 연결했습니다 . 모든 버전은 문제가 없습니다. 최신 버전은 최신 예를 제공 할 수 있습니다.)
whuber

답변:


1

한 가지 좋은 방법은 R ( http://www.r-project.org/ ) 을 설치 하고 예제를 사용하여 가르치는 것입니다. "? t.test"명령 등을 사용하여 R의 도움말에 액세스 할 수 있습니다. 각 도움말 파일의 끝에는 예제가 있습니다. t.test의 경우 :

> t.test(extra ~ group, data = sleep)

        Welch Two Sample t-test

data:  extra by group
t = -1.8608, df = 17.776, p-value = 0.07939
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.3654832  0.2054832
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

>  plot(extra ~ group, data = sleep)

여기에 이미지 설명을 입력하십시오


1

표본 크기를 미리 결정하고 "충분한 설문지를 보냈습니까"와 같은 질문에 대한 답을 찾기 위해 중앙 제한 정리를 적용하는 것이 좋습니다.

http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf 는 중앙 한계 정리를 적용하는 방법에 대한 훌륭한 실제 예를 제공합니다. 교훈적인 전략은 다음과 같습니다.

가) 이론

* 예를 들어, 주사위 굴림의 "평평한"분포와 N 주사위 평균의 분포에 의한 샘플링 분포와 추정 분포의 차이를 명확하게합니다 (R을 사용하거나 학생들이 Excel 드로잉을 사용하여 혼자 놀 수도 있음) 가치 분포 대 평균 분포)

* 평균의 분포에 대한 공식 기반 백분위 수 계산을 보여줍니다 (수학에 깊을수록 공식을 도출 할 수 있음).이 지점은 위에 링크 된 프레젠테이션의 슬라이드 10-17에 해당합니다.

그런 다음 (위 링크 된 프레젠테이션의 슬라이드 20에서와 같이) :

나) 신청

* 중앙 한계 정리가 평균의 추정치에서 원하는 정확한 값에 대한 표본 크기를 결정하는 데 어떻게 도움이되는지 보여줍니다.

이 응용 프로그램 B)는 비 통계 학자들이 통계 학자로부터 "내가 충분한 데이터를 가지고 있습니까?"


1

당신이 CS 학생들을 가르치고 있기 때문에, Central Limit Theorem의 훌륭한 적용은 방대한 데이터 세트로부터 평균을 추정하는 것입니다 (즉,> 1 억 레코드). 전체 데이터 세트에 대한 평균을 계산할 필요는 없지만 데이터 세트에서 샘플링하고 샘플 평균을 사용하여 전체 데이터 세트 / 데이터베이스의 평균을 추정 할 필요가 있음을 보여주는 것이 도움이 될 수 있습니다. 다른 하위 그룹에 대해 값이 크게 다른 데이터 세트를 시뮬레이션하고 원하는 경우이 단계를 더 진행할 수 있습니다. 그런 다음 학생들에게 계층화 된 샘플링을 탐색하여 더 정확한 추정치를 얻을 수 있습니다.

CS 학생이 있기 때문에 신뢰 구간을 얻거나 더 복잡한 통계의 분산을 추정하기 위해 부트 스트랩을 수행 할 수 있습니다. 제 생각에는 통계와 컴퓨터의 훌륭한 교차점이며 주제에 대한 관심이 커질 수 있습니다.


1

주석을 입력하여 시작했지만 너무 길어졌습니다 ...

그들은 CS 학생이라는 것을 명심하십시오. 당신은 그들에게 당신이 수학자를 기쁘게하는 방식을 기쁘게하지 않을 것입니다.σ대수학) 또는 생물 학자, 의사 (생물학적 또는 의학적 데이터, 좋은 오래된 귀무 가설을 테스트하기위한 고전적인 레시피 포함). 강의 오리엔테이션을 결정할 자유가 충분하다면, 기본 개념을 배우는 것이 요점이라면, 나의 충고는 오리엔테이션의 급진적 인 변화를 만드는 것입니다. 물론 다른 교사가 미리 정의 된 작업을 수행하기를 원하는 경우 약간의 어려움이 있습니다.

따라서 제 생각에, "학습"관점에서 추론을 제시하고 "결정 이론"또는 "분류"관점에서 시험을 제시하면 짧게 생각합니다. 알고리즘을 좋아합니다. 알고리즘을 망치다!

또한 CS 관련 데이터 세트를 찾아보십시오. 예를 들어 html 서버에 대한 연결 지속 시간 및 단위 시간당 요청 수는 많은 개념을 설명하는 데 도움이 될 수 있습니다.

그들은 시뮬레이션 기술을 배우기를 좋아할 것입니다. Lehmer 생성기는 구현하기 쉽습니다. cdf를 뒤집어 다른 분포를 시뮬레이션하는 방법을 보여줍니다. 이것에 관심이 있다면 Marsaglia의 Ziggurat 알고리즘을 보여주십시오. 그리고 Marsaglia의 MWC256 발전기는 작은 보석입니다. Marsaglia (균일 한 발전기의 공정성 테스트)에 의한 Diehard 테스트는 많은 확률 및 통계 개념을 설명하는 데 도움이 될 수 있습니다. "무작위 복식, 독립 체, 난수의 (독립적) 스트림을 기반으로 확률 이론을 제시하도록 선택할 수도 있습니다."

또한 페이지 순위는 Markov 체인을 기반으로합니다. 이것은 쉬운 일이 아니지만 Arthur Engel의 발표에 따르면 (참조는 확률 적 주판 이라고 생각합니다 -프랑스어를 읽으면 이 책은 반드시 읽어야합니다 ), 원하는 장난감 예제를 쉽게 제시 할 수 있습니다 . CS 과학 학생은 Discrete Markov 체인을 훨씬 더 좋아할 것이라고 생각합니다.-더 어려운 자료로 보일지라도 테스트합니다 (Engel의 프리젠 테이션은 매우 쉽습니다).

주제를 충분히 익히면 주저하지 말고 독창적입니다. "클래식"강의는 잘 모르는 것을 가르치면 괜찮습니다. 행운을 빕니다. 강의 노트를 발표하면 알려주세요!


1

당신은 이것이 컴퓨터 과학 학생들이라고 말합니다. 그들의 관심은 무엇입니까, 이것은 주로 이론적 인 컴퓨터 과학입니까, 아니면 학생들은 주로 취업 준비를 통해 동기를 부여합니까? 코스 설명이 무엇인지 알려주세요!

그러나 이러한 질문에 대한 답변이 무엇이든 웹 디자인과 같은 정보학 컨텍스트에서 발생하는 실제 통계로 시작할 수 있습니다. 이 사이트는 때때로 전환율 또는 /stats/96853/comparing-sales-person-conversion-rates 또는 AB 전환율 이외의 다른 요소 테스트 와 같은 질문이 있습니다.

여기에는 웹 디자인에 관련된 사람들의 질문과 같은 많은 질문이 있습니다. 상황은 웹 페이지가있는 것입니다 (예 : 무언가를 판매하는 것). 내가 알고있는 '전환율'은 선호하는 작업 (예 : 구매 또는 방문자에 대한 다른 목표)으로 이동하는 방문자의 비율입니다. 그런 다음 웹 디자이너로서 페이지 레이아웃이이 동작에 영향을 미치는지 묻습니다. 따라서 두 개 이상의 웹 페이지 버전을 프로그래밍하고 새로운 고객에게 제공 할 버전을 임의로 선택하여 전환율을 비교 한 다음 마지막으로 전환율이 가장 높은 버전을 구현하도록 선택합니다.

이것은 비교 실험의 설계 문제이며, 백분율을 비교하기 위해 통계적 방법이 필요하거나, 우발 설계 표와 변환 / 비 전환을 직접 비교할 수 있습니다. 이 예제는 일부 웹 개발 작업에서 통계가 실제로 유용 할 수 있음을 보여줍니다. 그리고 통계적 측면에서 가정의 타당성에 관한 많은 흥미로운 질문이 열립니다 ...

중앙 한계 정리에 대해 말한 것에 연결하기 위해 백분율을 정규 분포로 처리하고 시뮬레이션을 사용하여 그 점을 연구하게하려면 얼마나 많은 관측치가 필요한지 물어볼 수 있습니다.

프로그래머 유형별로 제기 된 기타 통계 질문에 대해서는이 사이트를 검색 할 수 있습니다 ...


-2

좋은 예가 나오기 전에 명확한 정의에 초점을 두는 것이 좋습니다. 내 경험상 학부 확률과 통계는 학생들이 이해하지 못하는 단어로 가득 찬 코스입니다. 실험으로서, 확률 코스를 마친 학생들에게 "임의 변수"가 무엇인지 물어보십시오. 그들은 당신에게 예를 줄 수도 있지만, 대부분이 당신에게 명확한 정의를 줄 것이라고 의심합니다. "확률"이란 정확히 무엇입니까? "배포"란 무엇입니까? 통계 용어는 훨씬 더 혼란 스럽다. 내가 본 대부분의 학부 책은 이것을 설명하는 데 매우 나쁜 일을합니다. 예제와 계산은 훌륭하지만 명확한 정의가 없으면 생각만큼 도움이되지 않습니다. 내 경험에 비추어 볼 때 이것이 바로 학부로서 확률 이론을 싫어하는 이유입니다. 비록 내가 할 수있는 한 최대한의 가능성에서 제외 된 관심사에도 불구하고, 나는 이제 모든 용어가 실제로 무엇을 의미하는지 스스로에게 가르쳐 주었기 때문에이 주제에 감사한다. 나는 이것이 당신이 요구 한 것이 아니라는 것을 사과드립니다. 그러나 당신이 그런 수업을 가르치고 있다고 생각하면 이것이 유용한 조언이라고 생각했습니다.


1
적어도 대부분의 경우 또는 모든 경우에 동의하지는 않습니다. 어떤 경우에는 개념 이해가 제안한 바와 같이 특정 예에 대한 적용보다 우선 할 수 있지만 다른 학생들에게는 개념 이해 (특히 복잡한 주제에 대한)가 특히 예를 들어서만 이루어질 수 있습니다.
jsakaluk

학부 시절에는 일반적으로 대학원 수학을 읽고 그 문제를 해결하는 것이 그리 어렵지 않았습니다. 내가하고있는 일과해야 할 일을 알았습니다. 확률 이론 또는 통계는 내가 배우고있는 과목보다 "쉽다". 그러나 나는 내가 무엇을하고 있는지, 왜해야하는지 전혀 몰랐습니다. 교과서 자체는 나에게 완전히 도움이되지 못했습니다. 그것들을 읽은 후에 나는 실제로 어휘를 이해하지 못했습니다. 물론 계산을 할 수는 있지만 하루가 끝날 무렵에는 빈 주제로 보았습니다. 내가이 혼란을 겪었다면, 수학이 아닌 학생들도 마찬가지입니다.
Nicolas Bourbaki

5
CS 전공에 응용 통계를 가르치는 것보다 순수한 수학 학위를 가진 매우 밝은 학생들에게 가르치는 데 더 유용한 조언이 될지 궁금합니다.
실버 피쉬

@Silverfish 나는 나의 충고가 수학 학생들에게만 적용되는지 확실하지 않습니다. 측정 이론의 언어를 개발하고 이론으로 가지 않고도 확률이 표현되는 방법을 보여줄 수 있습니다. 이것은 실제로 기본 미적분과 다르지 않습니다. 대부분의 책은 최소한 용어를 정의하지만 이론에 들어 가지 않습니다. 학생들이 통계가 확률의 역 문제라는 것을 이해하고, 예를 들어, 랜덤 변수의 예상 값에 근접하기 때문에 평균에 대해 "주의"한다고 이해하면 훨씬 더 감사 할 것입니다.
Nicolas Bourbaki
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.