중앙 한계 정리의 아름다움을 비 통계 학자에게 어떻게 전달합니까?


33

아버지는 수학 애호가이지만 통계에 관심이 없습니다. 하는 깔끔한 것 시도 통계의 멋진 비트의 일부를 설명하기 위해, 그리고 CLT는 주요 후보입니다. 중앙 한계 정리의 수학적 아름다움과 영향을 비 통계 학자에게 어떻게 전달 하시겠습니까?


빠른 생각 중 하나는 68-95-99.7 규칙 ( en.wikipedia.org/wiki/68-95-99.7_rule )을 토론에 도입하는 것입니다.
raegtin

답변:


16

CLT에서 가장 마음에 든 것은 적용 할 수없는 경우입니다. 이는 Gauss 곡선이 제시하는 삶이 좀 더 흥미로울 것이라는 희망을줍니다. Cauchy 분포를 보여주세요.


Cauchy 분포와 CLT 또는 CLT의 실패 사이의 관계는 무엇입니까?
로빈


CLT를 사용하려면 MGF가 0 근처에 있어야합니다. Cauchy 분포에는 해당 속성이 없습니다. CLT 승리. Cauchy는 요구되는 모든 것이 평균과 분산이 존재하는 더 강력한 CLT 버전의 약한 요구 사항도 충족시키지 못합니다. Cauchy 분포는 CLT가 보유하기 위해 평균이 존재해야 함을 보여줍니다. CLT가 실패하지는 않습니다.
Baltimark

@Baltimark 당신은 내 게시물을 잘못 이해했습니다. Cachy가 CLT 가정으로 인해 CLT에 포함되지 않는다는 것이 분명합니다. 그렇지 않으면 CLT를 증명하는 것이 불가능합니다. 사람들이 CLT가 모든 배포판에서 작동한다고 생각하기 때문에이 예를 들었습니다. 아마도 "실패"는 완벽한 단어는 아니지만 여전히 그것이 공감의 이유라고 생각하지 않습니다. 좋아, 심지어 적용 할 수 없도록 변경했습니다.

나는 당신의 편집을 선호합니다. 코시 배포판은 확실히 매우 시원합니다.
Baltimark

14

CLT를 충분히 이해하기 위해서는 CLT를보아야합니다.

따라서 콩 기계 와 많은 유튜브 비디오 의 개념 을 설명합니다.


나는 그것이 이항 분포를 보인다고 생각했다. 나는 그 증상이 CLT와 직접적인 관련이 있다고 생각하지 않습니다.

2
패키지 애니메이션의 저자에 의해 콩 기계 ... yihui.name/en/wp-content/uploads/2010/07/…
Robin


@ 로빈 내가 그것에 대해 쓴 문제는 무엇입니까?

1
@ShreevatsaR 요점은 좋은 그림이 무언가의 "핵심"을 보여 주어야하고, 적어도 CLT의 "핵심"은 다른 이상한 분포의 많은 변수를 가우시안으로 융합한다는 사실에 있습니다. 이항 분포의 한계.

7

수학자들은 확률에 대해 이야기 할 때 알려진 확률 분포로 시작한 다음 사건의 확률에 대해 이야기합니다. 중심 한계 정리의 진정한 가치는 우리가 정규 분포를 모르는 경우 정규 분포를 근사치로 사용할 수 있다는 것입니다. 데이터가 평균 mu 및 sd sigma를 갖는 분포에서 나온 경우 표본의 평균이 주어진 값보다 클 확률에 대한 표준 통계 질문 (수학적 표현)을 아버지에게 요청할 수 있습니다. 그는 배포판을 가정하고 (그것을 우리가 모른다고 말하면) 배포판을 알아야한다고 말합니다. 그러면 많은 경우 CLT를 사용하여 답변을 근사 할 수 있음을 보여줄 수 있습니다.

수학과 통계를 비교하기 위해 나는 적분의 평균값 정리를 사용하고 싶습니다 (a에서 b까지의 적분에 대해 동일한 면적을 가진 a에서 b까지의 사각형이 있으며 사각형의 높이는 곡선). 수학자는이 정리를보고 "쿨, 평균을 계산하기 위해 적분을 사용할 수 있습니다"라고 말하고, 통계학자는 동일한 정리를보고 "쿨을 사용하여 평균을 계산하여 적분을 계산할 수 있습니다"라고 말합니다.

나는 실제로 평균 가치 정리와 CLT (베이 즈 정리와 함께)의 내 사무실에 벽걸이 벽걸이를했습니다.


흠. 나는 대부분의 수학자들이 MVT를 사용하여 적분을 직사각형으로 추정한다고 생각합니다.
추기경

5

나는 "동급"실습을 통해 표본 변동과 본질적으로 중심 한계 정리를 보여주고 싶습니다. 수업 시간에 100 명 정도의 학생들은 자신의 나이를 종이에 씁니다. 평균을 계산 한 후 모든 용지 조각이 같은 크기이고 같은 방식으로 접 힙니다. 이것은 인구이며 평균 연령을 계산합니다. 그런 다음 각 학생은 무작위로 10 장의 종이를 선택하고 나이를 기록하고 가방에 반환합니다. (S) 그는 평균을 계산하고 가방을 다음 학생에게 전달합니다. 결국 우리는 각 인구 평균을 추정하는 10 명의 학생으로 구성된 100 개의 표본이 히스토그램과 일부 기술 통계량을 통해 설명 할 수 있습니다.

우리는 이번 여론 조사에서 몇 가지 예 / 아니오 질문을 모방 한 100 개의 "의견"을 사용하여 이번 시위를 반복합니다. 예를 들어 (영국 총선) 선거가 내일 소집되면 영국 국회에 투표하는 것을 고려해보십시오. 학생들은이 의견 중 10 개를 추출합니다.

마지막으로 연속 및 이진 데이터를 사용하여 샘플링 변동, 중앙 제한 정리 등을 시연했습니다.


4

다음 코드를 M가지고 놀면서 유니폼 이외의 분포를 선택하고 분포를 선택하는 것은 재미있는 그림이 될 수 있습니다.

N <- 10000
M <- 5
meanvals <- replicate(N, expr = {mean(runif(M,min=0, max=1))}) 
hist(meanvals, breaks=50, prob=TRUE) 


2

내 경험상 CLT는 보이는 것보다 유용하지 않습니다. 프로젝트 중간에 근사가 n이 작업에 적합 할만큼 충분히 큰지 알 수 없습니다. 통계 테스트의 경우 CLT는 유형 I 오류를 보호하는 데 도움이되지만 유형 II 오류를 거의 막지 않습니다. 예를 들어, 데이터 분포가 극도로 치우친 경우 t- 검정은 큰 n에 대해 임의로 낮은 전력을 가질 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.