144

몇 가지 다른 맥락에서 우리는 우리 가 채택하고자하는 통계적 방법 (예를 들어, 정규 분포에 의한 이항 분포의 근사)을 정당화하기 위해 중심 한계 정리 를 호출합니다 . 나는 왜 정리가 참인지에 대한 기술적 세부 사항을 이해하지만, 이제 중앙 한계 정리의 직관을 실제로 이해하지 못한다는 것이 나에게 일어났다.

그렇다면 중심 제한 정리의 직관은 무엇입니까?

레이맨의 설명이 이상적입니다. 기술적 세부 사항이 필요한 경우 pdf, cdf, random variable 등의 개념을 이해하지만 수렴 개념, 특성 함수 또는 측정 이론과 관련이있는 지식이 없다고 가정하십시오.

intuition central-limit-theorem

8

좋은 질문은 이것을 가르치는 제한된 경험으로 뒷받침되는 즉각적인 반응이지만 CLT가 처음에는 대부분의 사람들에게 직관적이지 않다는 것입니다. 무엇이든, 그것은 직관이 아닙니다!

— onestop

2

@onestop AMEN! n이 증가함에 따라 p = 1/2로 이항 분포를 응시 하면 CLT가 숨어 있음을 알 수 있지만 직관은 항상 나를 피했습니다.

— ronaf

2

좋은 생각을 가진 비슷한 질문 : stats.stackexchange.com/questions/643/…

1

설명은 아니지만 이 시뮬레이션 은 이해하는 데 도움 이 될 수 있습니다.

— David Lane

119

이 게시물의 길이에 대해 사전에 사과드립니다. 읽어내는 데 약간의 시간과주의가 필요하고 의심 할 여지없이 인쇄상의 오류와 설명의 부족이 있기 때문에 공개적으로 공개하는 것은 약간의 떨림입니다. 그러나 여기 흥미로운 주제에 관심이있는 사람들을위한 것이며, CLT의 여러 부분 중 하나 이상을 식별하여 자신의 반응에 대한 자세한 설명을 제공 할 것을 희망합니다.

CLT를 "설명"하려는 대부분의 시도는 그것이 사실임을 주장하는 예증 또는 재발 명입니다. 정말로 관통하고 정확한 설명은 많은 것을 설명해야 할 것입니다.

이 내용을 자세히 살펴보기 전에 CLT의 내용을 명확하게 살펴 보겠습니다. 모두 알다시피, 일반성에 따라 다양한 버전이 있습니다. 공통 문맥은 랜덤 확률 시퀀스이며, 이는 공통 확률 공간의 특정 종류의 함수입니다. 엄격하게 유지되는 직관적 인 설명을 위해 확률 공간을 구별 가능한 객체가있는 상자로 생각하면 도움이됩니다. 그 물건이 무엇인지는 중요하지 않지만 나는 "티켓"이라고 부를 것입니다. 우리는 티켓을 철저히 혼합하고 하나를 뽑아 상자를 한 번 관찰합니다. 그 티켓은 관찰을 구성합니다. 추후 분석을 위해 기록한 후 티켓의 내용물이 변경되지 않도록 박스에 반환합니다. "무작위 변수"는 기본적으로 각 티켓에 기록 된 숫자입니다.

1733 년 Abraham de Moivre 는 티켓의 숫자가 0과 1 ( "Bernoulli 시험") 인 단일 상자의 경우를 고려했으며, 각 숫자 중 일부가 존재합니다. 그는 물리적으로 독립적 인 관측을 수행하여 값 시퀀스를 산출한다고 상상했습니다 . 모두 0 또는 1입니다. 이러한 값 의 합인 은 합계 의 므로 임의입니다. 따라서이 절차를 여러 번 반복 할 수 있으면 다양한 합계 ( 에서 까지의 전체 숫자 )가 다양한 빈도 (전체 비율)로 나타납니다. 아래 히스토그램을 참조하십시오. $n$ $x_1, x_2, \ldots, x_n$ $y_n = x_1 + x_2 + \ldots + x_n$ $0$ $n$

이제 매우 큰 값의 경우 모든 주파수가 매우 작을 것으로 예상합니다. "한계"또는 " 을 로 이동 "하려고 시도하기 위해 대담하거나 어리석은 경우 , 모든 주파수가 줄어든다는 결론을 올릴 것입니다 . 그러나 우리는 단순히 히스토그램을 그리면 그 축이 표시되는 방법에 대한주의를 기울이지 않고 주파수를, 우리는 대규모의 히스토그램을 볼 모두 같은 모양 시작 : 어떤 의미에서,이 히스토그램은 한계에 접근 조차 주파수 불구하고 그들 모두는 0에 간다. $n$ $n$ $\infty$ $0$ $n$

히스토그램

이들 히스토그램은 을 얻는 여러 번 반복 한 결과를 . 은 제목의 "시험 횟수"입니다. $y_n$ $n$

여기서 통찰력은 먼저 히스토그램을 그리고 나중에 축에 레이블을 지정하는 것 입니다. 이 큰 경우 히스토그램은 (가로 축)를 중심으로하는 넓은 범위의 값 과 (가로 축) 세로로 작은 값 간격을가집니다. 개별 주파수는 상당히 작아지기 때문입니다. 따라서이 곡선을 플로팅 영역에 맞추 려면 히스토그램 의 이동 및 크기 조정 이 모두 필요했습니다 . 이것에 대한 수학적 설명은 각각의 에 대해 히스토그램과 스케일 값 을 위치시키기 위해 중심 값 반드시 선택할 수 $n$ $n/2$ $n$ $m_n$ $s_n$ 축에 맞게 만들기 위해 반드시 고유하지는 않습니다. 이것은 을 으로 변경 하여 수학적으로 수행 할 수 있습니다 . $y_n$ $z_n = (y_n - m_n) / s_n$

기억 히스토그램에 의해 주파수를 나타내는 영역 그것을 횡축 사이. 따라서 큰 값의 대한 이러한 히스토그램의 최종 안정성 은 면적으로 표시해야합니다. $n$ 따라서 원하는 값의 간격을 선택하십시오 (예 : 에서 그리고 증가함에 따라 간격 걸쳐있는 히스토그램 부분의 영역을 추적하십시오 . 소지품: $a$ $b \gt a$ $n$ $z_n$ $(a, b]$

상관없이 와 이다, $a$ $b$ 우리가 선택하는 경우 시퀀스는 및 적절하게 (에 의존하지 않는 방식으로 또는 모든에서),이 지역은 참으로 한계에 도달 큰 가져옵니다. $m_n$ $s_n$ $a$ $b$ $n$
서열은 및 단지에 의존하는 방법으로 선택 될 수있다 , 상자에 값의 평균, 그 가치의 확산 어느 정도를 - 그래서 관계없이 상자에 무엇이 -하지만 아무것도에 한도는 항상 같습니다. (이 보편성 속성은 놀랍습니다.) $m_n$ $s_n$ $n$
구체적으로, 그 제한 영역은 와 사이 의 곡선 아래의 영역입니다 : 이것은 보편적 인 제한 히스토그램의 공식입니다. $y = \exp(-z^2/2) / \sqrt{2 \pi}$ $a$ $b$

CLT의 첫 번째 일반화는 다음을 추가합니다.
상자에 0과 1 이외에 숫자가 포함될 수있는 경우, 정확히 같은 결론이 나옵니다 (상자에서 매우 크거나 작은 숫자의 비율이 너무 크지 않은 경우 (정확하고 간단한 정량적 진술 기준)) .

다음 번 일반화, 아마도 가장 놀라운 것은이 단일 티켓 박스를 티켓이있는 주문 된 무한 길이의 박스 어레이로 대체합니다. 각 상자는 티켓에 다른 비율로 다른 번호를 가질 수 있습니다. 관찰 은 첫 번째 상자에서 티켓을 그리고 는 두 번째 상자에서 오는 방식으로 이루어집니다. $x_1$ $x_2$
정확히 같은 결론 개최 "너무 다르지 않다"있는 상자의 내용을 제공 ( "너무 다르지 않다"을 의미하는 무슨의 양적 특성 분석, 정확한 여러 가지 있지만, 다른있다, 그들은 위도의 놀라운 양을 수 있습니다).

이 다섯 가지 주장은 최소한 설명이 필요합니다. 더있다. 설정의 몇 가지 흥미로운 측면은 모든 진술에 암시 적입니다. 예를 들어

합계에 대해 특별한 점은 무엇입니까 ? 왜 우리는 그들의 제품이나 최대 값과 같은 다른 수학적 조합에 대한 중앙 제한 이론을 가지고 있지 않습니까? (그것은 우리가 나타났다, 그러나 그들은 꽤 일반적으로하지 않으며 항상 그들이 CLT로 감소시킬 수 없다면 같은 깨끗하고 간단한 결론을해야합니까.)의 순서 및 고유하지 않습니다하지만 그들은있어 거의 유일한 결과적으로 그들은 티켓 의 합과 합의 표준 편차 에 대한 기대치를 각각 근사해야한다는 점에서 (CLT의 첫 두 문장에서 곱하기 상자). $m_n$ $s_n$ $n$ $\sqrt{n}$

표준 편차는 값의 산포를 측정하는 하나의 척도이지만, 역사적으로나 많은 응용 분야에서 유일한 것이 아니며 가장 "자연적인"것도 아닙니다. (예를 들어 많은 사람들이 중앙값 과 중앙값의 절대 편차 와 같은 것을 선택 합니다.)
SD가 왜 그렇게 필수적인 방식으로 나타 납니까?
제한 히스토그램의 공식을 고려하십시오. 누가 그러한 형식을 취할 것으로 예상 했습니까? 확률 밀도 의 로그 는 2 차 함수라고합니다. 왜? 이것에 대한 직관적이거나 명확한 설명이 있습니까?

나는 직감 성과 단순성에 대한 Srikant의 까다로운 기준을 충족하기에 충분히 간단한 답변을 제공한다는 궁극적 인 목표에 도달 할 수 없다고 고백하지만, 다른 사람들이 많은 격차를 메우기 위해 영감을 얻길 희망하면서이 배경을 스케치했습니다. 좋은 데모는 궁극적으로 을 형성 할 때 과 사이의 값이 어떻게 있는지에 대한 기초 분석에 의존해야한다고 생각합니다 . CLT의 단일 상자 버전으로 돌아가서 대칭 분포의 경우 처리가 더 간단합니다. 중간 값이 평균과 같기 때문에 가 상자의 평균보다 작을 확률은 50 %이고 확률은 50 %입니다. $\alpha_n = a s_n + m_n$ $\beta_n = b s_n + m_n$ $x_1 + x_2 + \ldots + x_n$ $x_i$ $x_i$ 평균보다 클 것입니다. 또한, 이 충분히 큰 경우, 평균으로부터의 양의 편차는 평균의 음의 편차를 보상해야한다. (이것은 손을 흔드는 것이 아니라 몇 가지 신중한 정당화가 필요합니다.) 따라서 우리는 주로 양의 편차와 음의 편차의 수를 세는 것에 관심을 가져야하며 그 크기 에 대해서는 이차적 인 관심사 만 있습니다 . $n$ (여기서 내가 작성한 모든 것 중에서 이것은 CLT가 작동하는 이유에 대한 직관을 제공하는 데 가장 유용 할 수 있습니다. 실제로 CLT의 일반화를 실현하는 데 필요한 기술적 가정은 본질적으로 다음과 같은 가능성을 배제하는 다양한 방법입니다. 드물게 큰 편차는 제한 히스토그램이 발생하는 것을 방지 할 수있을 정도로 균형을 어둡게합니다.)

어쨌든 CLT의 첫 번째 일반화가 Moivre의 원래 Bernoulli 시험판 버전에없는 것을 발견하지 못한 이유를 어느 정도 보여줍니다.

이 시점에서 그것은 약간의 수학을하는 것 외에는 아무것도없는 것처럼 보입니다 : 우리 는 평균으로부터 양의 편차가 음의 편차의 수와 미리 결정된 값 와 다를 수있는 뚜렷한 방법의 수 를 계산해야 합니다 여기서 는 중 하나입니다 . 그러나 작은 오류는 한계에서 사라질 것이기 때문에 정확하게 계산할 필요는 없습니다. 우리는 그 수를 근사해야합니다. 이를 위해 그것을 알고 있으면 충분합니다 $k$ $k$ $-n, -n+2, \ldots, n-2, n$

The number of ways to obtain k positive and n - k negative values out of n

$\text{The number of ways to obtain } k \text{ positive and } n-k \text{ negative values out of } n$

equals \frac{n - k + 1}{k}

$\text{equals } \frac{n-k+1}{k}$

times the number of ways to get k - 1 positive and n - k + 1 negative values.

$\text{times the number of ways to get } k-1 \text{ positive and } n-k+1 \text { negative values.}$

(이것은 완벽하게 기초적인 결과이므로 정당성을 적어 두지 않아도됩니다.) 이제 우리는 도매에 가깝습니다. 최대 주파수는 가 가능한 한 가까울 때 발생 합니다 (초등). 씁니다 . 그런 다음 최대 주파수에 대해 양의 편차 ( ) 의 주파수 는 곱에 의해 추정됩니다. $k$ $n/2$ $m = n/2$ $m+j+1$ $j \ge 0$

\frac{m + 1}{m + 1} \frac{m}{m + 2} \dots \frac{m - j + 1}{m + j + 1}

$\frac{m+1}{m+1} \frac{m}{m+2} \cdots \frac{m-j+1}{m+j+1}$

= \frac{1 - 1 / (m + 1)}{1 + 1 / (m + 1)} \frac{1 - 2 / (m + 1)}{1 + 2 / (m + 1)} \dots \frac{1 - j / (m + 1)}{1 + j / (m + 1)} .

$=\frac{1 - 1/(m+1)}{1 + 1/(m+1)} \frac{1-2/(m+1)}{1+2/(m+1)} \cdots \frac{1-j/(m+1)}{1+j/(m+1)}.$

de Moivre가 작곡하기 135 년 전에 John Napier는 곱셈을 단순화하기 위해 로그를 발명했습니다.이를 활용 해 봅시다. 근사 사용

\log (\frac{1 - x}{1 + x}) \sim - 2 x,

$\log\left(\frac{1-x}{1+x}\right) \sim -2x,$

상대 주파수의 로그는 대략

- 2 / (m + 1) - 4 / (m + 1) - \dots - 2 j / (m + 1) = - \frac{j (j + 1)}{m + 1} \sim - \frac{j^{2}}{m} .

$-2/(m+1) - 4/(m+1) - \cdots - 2j/(m+1) = -\frac{j(j+1)}{m+1} \sim -\frac{j^2}{m}.$

누적 오차는 비례하기 때문에 가 비해 작 으면 제대로 작동해야합니다 . 그것은 필요한 것보다 더 넓은 범위의 값을 포함 합니다. (이것은 근사 작동하기에 충분 만 정도의 점근보다 작은 ). $j^4/m^3$ $j^4$ $m^3$ $j$ $j$ $\sqrt{m}$ $m^{3/4}$

CLT의 다른 주장을 정당화하기 위해 이러한 종류의 분석을 분명히 제시해야하지만 시간, 공간 및 에너지가 부족하여 어쨌든이 책을 읽기 시작한 사람들의 90 %를 잃어 버렸을 것입니다. 그러나이 간단한 근사법은 de Moivre가 원래 보편적 인 제한 분포가 있고 로그가 2 차 함수이고 적절한 스케일 팩터 이 비례해야한다고 수 있습니다 ( ). $s_n$ $\sqrt{n}$ $j^2/m = 2 j^2 / n = 2 (j/\sqrt{n})^2$ 어떤 종류의 수학적 정보와 추론을 불러 들이지 않고서이 중요한 정량적 관계가 어떻게 설명 될 수 있는지 상상하기는 어렵다. 더 적은 것은 제한 곡선의 정확한 모양을 완전한 미스터리로 남겨 둘 것입니다.

— 우버
소스

5

+1 답을 요약하는 데 시간이 좀 걸립니다. 나는 내가 부과 한 제약 내에서 CLT에 대한 직관을 요구하는 것이 거의 불가능하다는 것을 인정한다.

2

이 글을 쓰는 데 시간을 내 주셔서 감사합니다. 제가 본 CLT의 가장 유용한 설명입니다.

— jeremy radcliff

1

예, 매우 조밀합니다 .... 많은 질문이 있습니다. 첫 번째 히스토그램에는 2 개의 막대가 어떻게 포함되어 있습니까 (1 회 시행)! 그냥 무시해도 될까요? 그리고 컨벤션은 일반적으로 히스토그램 막대 사이의 수평 간격을 피하는 것입니다. (당신이 말했듯이, 면적이 중요하고, 면적은 결국 연속적인 (즉, 갭이없는) 도메인에 대해 계산 될 것입니다)? 그 차이도 무시하고 ...? 처음에 그것을 이해하려고 할 때 조차 격차가있었습니다 :)

— The Red Pea

1

@TheRed 질문 해 주셔서 감사합니다. 이 게시물의 첫 부분을 편집하여 이러한 요점을 좀 더 명확하게 만들었습니다.

— whuber

4

아, 네, "시험 횟수 = ="관찰 ""과 "횟수 (이 전체 절차) 반복"을 혼동했습니다 . 티켓 만의 값을 가질 수있는 경우 두 값, 0 또는 1을 , 그리고 당신은 단지 관찰 한 티켓의 합이 그 티켓 '값은 단지 중 하나가 될 수 있습니다 이 : 일 0 또는 1 . 따라서 첫 번째 히스토그램에는 두 개의 막대가 있습니다. 또한 이러한 막대의 높이는 0과 1이 동일한 비율로 발생할 것으로 예상되므로 높이가 대략 동일합니다.

n

$n$

— 붉은 완두콩

27

내가 아는 가장 좋은 애니메이션 : http://www.ms.uky.edu/~mai/java/stat/GaltonMachine.html

내가 읽은 가장 간단한 단어 : http://elonen.iki.fi/articles/centrallimit/index.en.html

이 10 회 던지기의 결과를 합하면 최대 60 (모두 6 개) 또는 다른 한편으로는 최소 10 (모두 1 개)보다 30-40에 가깝습니다.

그 이유는 극단 값보다 더 다양한 방법으로 중간 값을 얻을 수 있기 때문입니다. 예 : 주사위 2 개를 던질 때 : 1 + 6 = 2 + 5 = 3 + 4 = 7, 단 1 + 1 = 2 및 6 + 6 = 12.

즉, 하나의 주사위를 던질 때 6 개의 숫자 중 하나를 똑같이 얻을 수 있지만 극단 값은 여러 주사위의 합계에서 중간 값보다 가능성이 적습니다.

— 유리 같은
소스

20

직감은 까다로운 것입니다. 등 뒤에 묶인 우리 손에있는 이론으로는 더 까다 롭습니다.

CLT는 모두 작고 독립적 인 장애의 합입니다. 표본의 의미에서 "합계"는 (인구의) 유한 분산의 의미에서 "작은"을 의미하고 중심 (인구) 값 주위의 플러스 / 마이너스의 의미에서 "소란"을 의미합니다.

나를 위해 직감에 가장 직접적으로 호소하는 장치 는 quincunx 또는 'Galton box'입니다. Wikipedia ( 'bean machine')를 참조하십시오. 간격이 같은 핀 도중에 공은 좌우로 움직이며 (... 무작위로, 독립적으로) 바닥에 모입니다. 시간이 지남에 따라 우리는 눈앞에서 멋진 종 모양의 마운드 형태를 볼 수 있습니다.

CLT도 마찬가지입니다. 이 현상에 대한 수학적 설명입니다 (더 정확하게 말하면, quincunx는 이항 분포에 대한 정규 근사에 대한 물리적 증거입니다). 느슨하게 말하면 CLT는 인구가 과도하게 잘못 행동하지 않는 한 (즉, PDF의 꼬리가 충분히 얇은 경우) 표본 평균 (적절하게 스케일링 된)은 작은 공이 quincunx : 때로는 왼쪽으로 떨어지고 때로는 오른쪽으로 떨어지지 만 대부분은 멋진 종 모양으로 중간 주위에옵니다.

CLT의 위엄은 기본 인구 의 형태 가 관련이 없다는 것입니다. 셰이프는 샘플 크기의 의미에서 기다려야하는 시간을 위임하는 한 역할을합니다.

17

CLT에 관한 관찰은 다음과 같다. 많은 임의의 구성 요소 의 합계 을 가질 때 하나가 "평소보다 작다"면 다른 구성 요소 중 일부가 "보통보다 큼"으로 보상됩니다. 다시 말해서, 구성 요소로부터의 음의 편차 및 양의 편차는 합산에서 서로 상쇄된다. 개인적으로, 왜 남은 편차가 정확하게 더 많은 항을 갖는 분포를 형성하는지 명확하게 알 수 없습니다.

S = X_{1} + X_{2} + \dots + X_{n}

$S = X_1 + X_2 + \ldots + X_n$

CLT에는 여러 버전이 있으며, 일부는 다른 것보다 강력하며, 일부는 용어 간의 중간 정도의 의존성 및 / 또는 용어의 비 동일 분포와 같은 완화 된 조건이 있습니다. CLT의 가장 간단한 증명 버전에서 증명은 일반적으로 합 의 모멘트 생성 함수 (또는 Laplace-Stieltjes 변환 또는 다른 적절한 밀도 변환)를 기반으로합니다 . 이것을 Taylor 확장으로 작성하고 가장 지배적 인 항만 유지하면 정규 분포의 모멘트 생성 기능이 제공됩니다. 따라서 개인적으로 정규성은 많은 방정식에서 나온 것이며 그보다 더 직관력을 제공 할 수 없습니다. $S$

합계의 분포는, 그러나 주목해야한다 결코 정말 되는 정규 분포 않으며, CLT가 될 것이라고 주장한다. 이 유한 한 경우 정규 분포와 약간의 거리가 있으며 경우 평균과 분산도 무한대입니다. 후자의 경우 무한 합의 평균을 취할 수 있지만 전혀 분산없이 결정 론적 숫자를 얻습니다. "정규 분포"로 표시되지 않습니다. $n$ $n=\infty$

이것은 CLT의 실제 적용에 문제를 일으킬 수 있습니다. 일반적으로 중심에 가까운 분포에 관심이 있다면 CLT가 잘 작동합니다. 그러나 법선에 대한 수렴은 어느 곳에서나 균일하지 않으며 중심에서 멀어 질수록 합리적인 근사값을 가져야하는 용어가 더 많아집니다. $S/n$

중앙 한계 정리의 모든 "신성함"이 통계로 인해 그 한계는 종종 너무 쉽게 간과됩니다. 아래는 실제 사용 사례에서 CLT가 꼬리에서 완전히 실패하는 지점을 만드는 과정에서 두 개의 슬라이드를 제공합니다. 불행히도 많은 사람들이 CLT를 사용하여 고의로 또는 다른 방식으로 꼬리 확률을 추정합니다.

여기에 이미지 설명을 입력하십시오

— StijnDeVuyst
소스

5

이것은 훌륭한 자료이며 현명한 조언입니다. "이 정규성은 수학적 인공물이며 그 뒤에있는 더 깊은 진실이나 직관을 검색하는 것이 유용하지 않다"는 주장이 심히 어려워서 안타깝게도 그것을 찬성 할 수 없습니다. 그들은 (1) 우리가 이론적으로 우리를 돕기 위해 수학에 의존해서는 안되며 (2) 처음에는 수학을 이해할 필요가 없다고 제안합니다. 이 글의 다른 게시물이 이미 두 번째 주장을 반증하기 위해 먼 길을 가고 있기를 바랍니다. 첫 번째는 너무 일관성이 없기 때문에 추가 분석이 거의 이루어지지 않습니다.

— whuber

2

@whuber. 네 말이 맞아, 아마 내 리그에서 나왔을 것이다. 편집하겠습니다.

— StijnDeVuyst

3

문제가있는 부분을 재고 해 주셔서 감사합니다. 나머지는 큰 +1입니다.

— whuber

7

이 답변은 간단한 미적분 기법 (3 차 테일러 확장)을 사용하여 중앙 한계 정리의 직관적 인 의미를 제공하기를 희망합니다. 개요는 다음과 같습니다.

CLT가 말하는 것
간단한 미적분학을 사용한 CLT의 직관적 증거
왜 정규 분포인가?

맨 끝에 정규 분포를 언급 할 것입니다. 정규 분포가 결국 나타난다는 사실은 직관력이 크지 않기 때문입니다.

1. 중심 한계 정리는 무엇을 말하는가? CLT의 여러 버전

CLT에는 몇 가지 동일한 버전이 있습니다. CLT의 교과서에 따르면 실제 와 임의의 임의의 무작위 랜덤 변수 에 대해 평균이 0이고 분산이 1 인 경우 CLT에 대해 보편적 이고 직관적 인 것을 이해하려면 잠시 한도를 잊어 버리십시오. 위의 설명은 및 이 각각 제로 평균과 분산 1을 갖는 독립 랜덤 변수의 두 시퀀스 라고 말합니다 $x$ $X_1,\cdots,X_n$

P (\frac{X_{1} + \dots + X_{n}}{\sqrt{n}} \leq x) \to_{n \to + \infty} \int_{- \infty}^{x} \frac{e^{- t^{2} / 2}}{\sqrt{2 π}} d t .

$P\left(\frac{X_1+\cdots+X_n}{\sqrt n} \le x\right) \to_{n\to+\infty} \int_{-\infty}^x \frac{e^{-t^2/2}}{\sqrt{2\pi}} dt.$

X_{1} ., \dots, X_{n}

$X_1.,\ldots,X_n$

Z_{1}, \dots, Z_{n}

$Z_1,\ldots,Z_n$

E [f (\frac{X_{1} + \dots + X_{n}}{\sqrt{n}})] - E [f (\frac{Z_{1} + \dots + Z_{n}}{\sqrt{n}})] \to_{n \to + \infty} 0

$E \left[ f\left(\tfrac{X_1+\cdots+X_n}{\sqrt n}\right) \right] - E \left[ f\left(\tfrac{Z_1+\cdots+Z_n}{\sqrt n}\right) \right] \to_{n\to+\infty} 0$ 형식의 모든 표시기 함수 에 대해 , 고정 실수 에 대해서는 이전 디스플레이는 의 특정 분포에 관계없이 한계가 동일하다는 사실을 나타냅니다 및 은 랜덤 변수가 평균 0, 분산 1과 독립적 인 .

f

$f$

x

$x$

f (t) = {\begin{cases} 1 if t < x \\ 0 if t \geq x . \end{cases}

$\begin{equation} f(t) = \begin{cases} 1 \text{ if } t < x \\ 0 \text{ if } t\ge x.\end{cases} \end{equation}$

X_{1}, \dots, X_{n}

$X_1,\ldots,X_n$

Z_{1}, \dots, Z_{n}

$Z_1,\ldots,Z_n$

CLT의 다른 버전은 1로 묶인 Lipschtiz 함수의 클래스를 언급합니다. CLT의 다른 일부 버전은 차수 파생 파생물을 갖는 부드러운 함수 클래스를 언급합니다 . 위와 같이 두 시퀀스 및 을 고려하고 일부 함수 의 경우 수렴 결과 (CONV) $k$ $X_1,\ldots,X_n$ $Z_1,\ldots,Z_n$ $f$

\begin{matrix} (CONV) & E [f (\frac{X_{1} + \dots + X_{n}}{\sqrt{n}})] - E [f (\frac{Z_{1} + \dots + Z_{n}}{\sqrt{n}})] \to_{n \to + \infty} 0 \end{matrix}

$E \left[ f\left(\tfrac{X_1+\cdots+X_n}{\sqrt n}\right) \right] - E \left[ f\left(\tfrac{Z_1+\cdots+Z_n}{\sqrt n}\right) \right] \to_{n\to+\infty} 0 \tag{CONV}$

다음 진술들 사이에 등가 ( "만 그리고 만약에")를 확립하는 것이 가능하다 :

(CONV)는 상기 각 표시 기능이 보유 폼의 에 대한 및 에 대한 일부 고정 레알 . $f$ $f(t)=1$ $t < x$ $f(t)=0$ $t\ge x$ $x$
(CONV)는 모든 경계 입술 함수 ( 됩니다. $f:R\to R$
(CONV)는 모든 지원 기능 (예 : )을 간결하게 지원합니다. $C^{\infty}$
(CONV)는 각 기능 보유 를 연속 미분 세 번째 . $f$ $\sup_{x\in R} |f'''(x)| \le 1$

위의 4 가지 포인트는 각각 수렴이 많은 기능을 보유하고 있다고 말합니다. 기술적 근사화 주장에 따르면 위의 네 가지 점이 동등하다는 것을 알 수 있습니다. 독자는 David Pollard의 저서 77 페이지 7 장, 이 답변에서 영감을 얻은 이론적 확률을 측정하기위한 사용자 안내서 의 7 장을 참조하십시오 .

이 답변의 나머지에 대한 우리의 가정 ...

우리는 그 가정 할 것이다 상수 4에 해당하는 상수 경우우리는 또한 랜덤 변수가 유한하고 한정된 세 번째 모멘트를 가지고 있다고 가정합니다 : 및 는 유한합니다. $\sup_{x\in R} |f'''(x)| \le C$ $C>0$ $E[|X_i|^3]$ $E[|Z_i|^3]$

2. 은 보편적입니다 : 의 분포에 의존하지 않습니다 $E\left[ f\left( \tfrac{X_1+\cdots+X_n}{\sqrt n} \right) \right]$ $X_1,...,X_n$

어떤 양의 독립적 인 랜덤 변수가 제공되었는지에 의존하지 않는다는 점에서이 양은 보편적 인 것 (작은 오류 항까지)임을 보여 드리겠습니다. 가라 및 독립 확률 변수의 두 시퀀스, 평균 0, 분산 1을 가진 유한 번째 순간 각. $X_1,\ldots,X_n$ $Z_1,\ldots,Z_n$

아이디어는 수량 중 하나에서 를 로 반복적으로 대체 하고 기본 미적분학에 의한 차이를 제어하는 것입니다 (아이디어는 Lindeberg 때문이라고 생각합니다). Taylor 확장에 의해 이고 경우 여기서 및 $X_i$ $Z_i$ $W = Z_1+\cdots+Z_{n-1}$ $h(x)=f(x/\sqrt n)$

\begin{aligned} h (Z_{1} + \dots + Z_{n - 1} + X_{n}) & = h (W) + X_{n} h^{'} (W) + \frac{X_{n}^{2} h^{″} (W)}{2} + \frac{X_{n}^{3} / h^{‴} (M_{n})}{6} \\ h (Z_{1} + \dots + Z_{n - 1} + Z_{n}) & = h (W) + Z_{n} h^{'} (W) + \frac{Z_{n}^{2} h^{″} (W)}{2} + \frac{Z_{n}^{3} h^{‴} (M_{n}^{'})}{6} \end{aligned}

$\begin{align} h(Z_1+\cdots+Z_{n-1}+X_n) &= h(W) + X_n h'(W) + \frac{X_n^2 h''(W)}{2} + \frac{X_n^3/h'''(M_n)}{6} \\ h(Z_1+\cdots+Z_{n-1}+Z_n) &= h(W) + Z_n h'(W) + \frac{Z_n^2 h''(W)}{2} + \frac{Z_n^3 h'''(M_n')}{6} \\ \end{align}$

M_{n}

$M_n$

M_{n}^{'}

$M_n'$ 평균값 정리에 의해 주어진 중간 점입니다. 두 라인에 기대를 고려하여 0 차 기간은 동일하고, 1 차 조건 때문에 독립하여 기대가 동일 와 , 및 두 번째 줄과 유사합니다. 다시 독립성에 의해, 2 차 항은 기대에서 동일하다. 남은 항은 3 차 이며, 두 줄의 차이는 최대 여기서 는 의 3 차 도함수의 상한 입니다. 분모 나타납니다.

X_{n}

$X_n$

W

$W$

E [X_{n} h^{'} (W)] = E [X_{n}] E [h^{'} (W)] = 0

$E[X_n h'(W)]= E[X_n] E[h'(W)] =0$

\frac{(C / 6) E [| X_{n} |^{3} + | Z_{n} |^{3}]}{(\sqrt{n})^{3}} .

$\frac{(C/6)E[ |X_n|^3 + |Z_n|^3 ]}{(\sqrt n)^3}.$

C

$C$

f^{‴}

$f'''$

(\sqrt{n})^{3}

$(\sqrt{n})^3$

h^{‴} (t) = f^{‴} (t / \sqrt{n}) / (\sqrt{n})^{3}

$h'''(t) = f'''(t/\sqrt n)/(\sqrt n)^3$ . 독립적으로, 합계에서 의 기여 는 위의 디스플레이보다 큰 오류를 발생시키지 않고 으로 대체 될 수 있기 때문에 의미가 없습니다 ! $X_n$ $Z_n$

이제 을 로 바꾸는 것을 반복합니다 . 만약 다음 의 독립성 및 , 그리고 독립하여 과 $X_{n-1}$ $Z_{n-1}$ $\tilde W= Z_1+Z_2+\cdots+Z_{n-2} + X_n$

\begin{aligned} h (Z_{1} + \dots + Z_{n - 2} + X_{n - 1} + X_{n}) & = h (\tilde{W}) + X_{n - 1} h^{'} (\tilde{W}) + \frac{X_{n - 1}^{2} h^{″} (\tilde{W})}{2} + \frac{X_{n - 1}^{3} / h^{‴} ({\tilde{M}}_{n})}{6} \\ h (Z_{1} + \dots + Z_{n - 2} + Z_{n - 1} + X_{n}) & = h (\tilde{W}) + Z_{n - 1} h^{'} (\tilde{W}) + \frac{Z_{n - 1}^{2} h^{″} (\tilde{W})}{2} + \frac{Z_{n - 1}^{3} / h^{‴} ({\tilde{M}}_{n})}{6} . \end{aligned}

$\begin{align} h(Z_1+\cdots+Z_{n-2}+X_{n-1}+X_n) &= h(\tilde W) + X_{n-1} h'(\tilde W) + \frac{X_{n-1}^2 h''(\tilde W)}{2} + \frac{X_{n-1}^3/h'''(\tilde M_n)}{6}\\ h(Z_1+\cdots+Z_{n-2}+Z_{n-1}+X_n) &= h(\tilde W) + Z_{n-1} h'(\tilde W) + \frac{Z_{n-1}^2 h''(\tilde W)}{2} + \frac{Z_{n-1}^3/h'''(\tilde M_n)}{6}. \end{align}$

Z_{n - 1}

$Z_{n-1}$

\tilde{W}

$\tilde W$

X_{n - 1}

$X_{n-1}$

\tilde{W}

$\tilde W$ 다시, 0 차, 1 차 및 2 차 항은 두 라인 모두에 대해 동일합니다. 두 줄 사이의 기대 차이는 다시 최대 모든 를 로 교체 할 때까지 계속 반복 합니다. 각 단계 에서 발생한 오류를 추가하여 같은

\frac{(C / 6) E [| X_{n - 1} |^{3} + | Z_{n - 1} |^{3}]}{(\sqrt{n})^{3}} .

$\frac{(C/6)E[ |X_{n-1}|^3 + |Z_{n-1}|^3 ]}{(\sqrt n)^3}.$

Z_{i}

$Z_i$

X_{i}

$X_i$

n

$n$

| E [f (\frac{X_{1} + \dots + X_{n}}{\sqrt{n}})] - E [f (\frac{Z_{1} + \dots + Z_{n}}{\sqrt{n}})] | \leq n \frac{(C / 6) max_{i = 1, \dots, n} E [| X_{i} |^{3} + | Z_{i} |^{3}]}{(\sqrt{n})^{3}} .

$\Big| E\left[ f\left( \tfrac{X_1+\cdots+X_n}{\sqrt n} \right) \right]-E\left[ f\left( \tfrac{Z_1+\cdots+Z_n}{\sqrt n} \right) \right] \Big| \le n \frac{(C/6)\max_{i=1,\ldots,n} E[ |X_i|^3 + |Z_i|^3 ]}{(\sqrt n)^3}.$

n

$n$ 세 번째 모멘트 또는 임의 변수가 유한 한 경우 오른쪽이 임의로 작아집니다 (사례라고 가정). 이는 의 분포 가 의 분포와 거리가 왼쪽에 대한 기대가 임의로 서로 가깝게됨을 의미합니다 . 독립적으로, 합계에서 각 의 기여는 보다 큰 오류를 발생시키지 않고 로 대체 될 수 있기 때문에 의미가 없습니다 . 모든 대체 '바이 S 들'이상으로 양을 변경하지 않는 .

X_{1}, \dots, X_{n}

$X_1,\ldots,X_n$

Z_{1}, \dots, Z_{n}

$Z_1,\ldots,Z_n$ $X_i$ $Z_i$ $O(1/(\sqrt n)^3)$

X_{i}

$X_i$

Z_{i}

$Z_i$

O (1 / \sqrt{n})

$O(1/\sqrt n)$

기대 따라서 보편적이고, 그것의 분포에 의존하지 않는 . 한편, 독립성과 은 상기 범위에서 가장 중요했습니다. $E\left[ f\left( \frac{X_1+\cdots+X_n}{\sqrt n} \right) \right]$ $X_1,\ldots,X_n$ $E[X_i]=E[Z_i]=0,E[Z_i^2]=E[X_i^2]=1$

3. 왜 정규 분포인가?

우리는 가 의 분포에 관계없이 최대 a 순서 의 작은 오류 . $E\left[ f\left( \frac{X_1+\cdots+X_n}{\sqrt n} \right) \right]$ $X_i$ $O(1/\sqrt n)$

그러나 응용 분야의 경우 그러한 수량을 계산하는 것이 유용합니다. 이 수량에 대해 더 간단한 표현을 얻는 것도 유용합니다. . $E\left[ f\left( \frac{X_1+\cdots+X_n}{\sqrt n} \right) \right]$

이 수량은 컬렉션 과 동일하기 때문에 분포 이 계산하기 쉽고 기억하기 쉬운 특정 컬렉션을 선택할 수 있습니다 . $X_1,\ldots,X_n$ $(X_1+\cdots+X_n)/\sqrt n$

정규 분포 경우이 수량이 실제로 단순 해집니다. 실제로 이 iid 이면 에도 분포가 있으며 의존하지 않습니다 ! 따라서 이면 독립 확률 변수의 임의의 수집을위한 상기 인수에 의해 와 다음, $N(0,1)$ $Z_1,\ldots,Z_n$ $N(0,1)$ $\frac{Z_1+\cdots+Z_n}{\sqrt n}$ $N(0,1)$ $n$ $Z\sim N(0,1)$

E [f (\frac{Z_{1} + \dots + Z_{n}}{\sqrt{n}})] = E [f (Z)],

$E\left[ f\left( \frac{Z_1+\cdots+Z_n}{\sqrt n} \right) \right] = E[ f(Z)],$

X_{1}, \dots, X_{n}

$X_1,\ldots,X_n$

E [X_{i}] = 0, E [X_{i}^{2}] = 1

$E[X_i]=0,E[X_i^2]=1$

| E [f (\frac{X_{1} + \dots + X_{n}}{\sqrt{n}})] - E [f (Z) | \leq \frac{sup_{x \in R} | f^{‴} (x) | max_{i = 1, \dots, n} E [| X_{i} |^{3} + | Z |^{3}]}{6 \sqrt{n}} .

$\left| E\left[ f\left( \frac{X_1+\cdots+X_n}{\sqrt n} \right) \right] -E[f(Z) \right| \le \frac{\sup_{x\in R} |f'''(x)| \max_{i=1,\ldots,n} E[|X_i|^3 + |Z|^3]}{6\sqrt n}.$

— 질크
소스

당신은 CLT보다는 많은 수 의 법칙을 주장하는 것 같습니다 .

— whuber

1

왜 이렇게 말할지 잘 모르겠습니다, @whuber. 위의 내용은 이 로 수렴 한다는 점을 직관적으로 증명합니다 여기서 은 큰 클래스의 함수 . 이것이 CLT입니다.

E [f ((X_{1} + . . . + X_{n}) / \sqrt{n})]

$E[f((X_1+...+X_n)/\sqrt n)]$

E [f (Z)]

$E[f(Z)]$

Z \sim N (0, 1)

$Z\sim N(0,1)$

f

$f$

— jlewk

2

무슨 말인지 알 겠어 CLT는 제한 분포에 대한 결론을 내리는 반면, 당신의 주장은 분포에만 의존하지 않고 단지 기대에만 관심이 있다는 점입니다. 둘 사이의 동등성은 많은 사람들에게 즉시 명백하지 않을 수 있습니다. 그렇다면 배포 제한 측면에서 진술과 CLT의 일반적인 진술을 명시 적으로 연결해야한다고 제안 할 수 있습니까? (그런데 +1 :이 논쟁을

— 설명해

1

나는 직관적 인 버전을 생각해 내기를 포기하고 몇 가지 시뮬레이션을 생각해 냈습니다. 나는 Quincunx와 다른 것들을 시뮬레이션 한 것을 가지고 있습니다. 피사체 당 충분한 RT를 수집하면 왜곡 된 원시 반응 시간 분포가 어떻게 정상화되는지 보여줍니다. 나는 그들이 도움이 될 것이라고 생각하지만 올해 내 수업에 새로 생겼으며 아직 첫 번째 시험을 채점하지 않았습니다.

내가 좋았다고 생각한 한 가지는 많은 수의 법칙도 보여줄 수있는 것이 었습니다. 표본 크기가 작은 가변적 인 변수를 보여준 다음 크기가 큰 표본이 어떻게 안정화되는지 보여줄 수 있습니다. 나는 다른 많은 수의 데모도 수행합니다. Quincunx에서 랜덤 프로세스 수와 샘플 수 사이의 상호 작용을 보여줄 수 있습니다.

(교실에서 분필이나 화이트 보드를 사용할 수없는 것이 축복이었을 수도 있음)

— 남자
소스

안녕 존 : 거의 9 년 후이 게시물로 다시 만나서 반갑습니다! CLT와 LLN에 대한 아이디어를 가르치기 위해 시뮬레이션을 사용하면서 그 동안 경험했던 경험에 대해 읽는 것이 흥미로울 것입니다.

— whuber

1 년 후 그 수업을 중단했지만 그 이후의 강사는 시뮬레이션 아이디어를 얻었습니다. 실제로, 그는 훨씬 더 멀리 가지고 다니면서 일련의 반짝이는 앱을 개발했으며 학생들이 250 명 클래스의 많은 것들에 대한 시뮬레이션을 가지고 놀게했습니다. 제가 상류층을 가르치면서 알 수 있듯이 학생들은 많은 것을 얻는 것 같습니다. 그의 학생들과 동등한 급 지대 수업의 차이는 눈에 띄게 나타납니다. (물론 통제 할 수없는 변수가 많이 있습니다)

— John

고마워요, 존 수업이 끝난 후에도 학생의 지속적인 성적에 대한 일화적인 피드백을받는 것은 매우 이례적인 일 입니다.

— whuber

-8

많은 랜덤 분포 히스토그램을 함께 추가하면 모든 개별 히스토그램이 이미 해당 모양을 가지고 있기 때문에 정규 분포 모양을 유지하거나 큰 값을 추가하면 개별 히스토그램의 변동이 서로 상쇄되는 경향이 있으므로 해당 모양을 얻습니다 히스토그램 수 하나의 변수의 랜덤 분포에 대한 히스토그램은 사람들이 정규 분포를 부르기 시작한 방식으로 이미 거의 분포되어 있습니다. 왜냐하면 그것은 매우 일반적이기 때문에 중앙 한계 정리의 축소판입니다.

이것은 전체 이야기가 아니지만 그것이 얻는 것처럼 직관적이라고 생각합니다.

— 포 엘모
소스

2

"정규 분포"에 대한 설명은 이중 지수의 이산 버전처럼 들립니다.이 지수는 가우시안 정규 분포와 같지 않습니다 (두 가지 모두 단일 및 대칭을 제외하고는 제외). 동전 뒤집기의 히스토그램에는 각 단계마다 씩 감소하는 막대가 없습니다 ! 그것은 "직관"에 대한 호소에 의해 제기 된이 설명에 숨어있는 어려움이있을 수 있음을 시사합니다.

2

$2$

— whuber

5

이 대답은 대부분 넌센스입니다. 공정한 동전을 몇 번 확률은 ; 실제로 그것은 확률 질량 함수도 아닙니다! 도 아니다 않는 행에 머리의 수는 문제와 아무 상관이있다.

\frac{1}{8}, \frac{1}{4}, \frac{1}{2}, \frac{1}{4}, \frac{1}{8}

$\frac 18, \frac 14, \frac 12, \frac 14, \frac 18$

— Dilip Sarwate

중심 한계 정리에 대한 직관적 인 설명은 무엇입니까?

1. 중심 한계 정리는 무엇을 말하는가? CLT의 여러 버전

이 답변의 나머지에 대한 우리의 가정 ...

2. 은 보편적입니다 : 의 분포에 의존하지 않습니다이자형[ f( X1+ ⋯ + X엔엔√) ]E[f(X1+⋯+Xnn)]E\left[ f\left( \tfrac{X_1+\cdots+X_n}{\sqrt n} \right) \right]엑스1, . . . , X엔X1,...,XnX_1,...,X_n

3. 왜 정규 분포인가?

2. 은 보편적입니다 : 의 분포에 의존하지 않습니다 $E\left[ f\left( \tfrac{X_1+\cdots+X_n}{\sqrt n} \right) \right]$ $X_1,...,X_n$