중앙 한계 정리가 왜 시뮬레이션에서 분해됩니까?


21

다음과 같은 숫자가 있다고 가정 해 봅시다.

4,3,5,6,5,3,4,2,5,4,3,6,5

5 개 중 일부를 샘플링하고 5 개 샘플의 합을 계산합니다. 그런 다음 반복해서 반복하여 많은 합계를 얻습니다. 그리고 히스토그램으로 합계 값을 플로팅합니다. 중앙 한계 정리로 인해 가우시안이됩니다.

그러나 그들이 숫자를 따를 때, 나는 방금 4를 큰 숫자로 바꿨습니다.

4,3,5,6,5,3,10000000,2,5,4,3,6,5

이것들로부터 5 개의 샘플의 샘플링 합계는 히스토그램에서 결코 가우스가되지 않지만, 분할과 더 유사하며 2 개의 가우스가됩니다. 왜 그런가요?


1
n = 30 정도 이상으로 늘리면 내 의심과 간결한 버전 / 아래에서 허용되는 답변을 복원하는 것입니다.
oemb1905

@JimSD CLT점근 적 결과입니다 (즉, 표본 크기가 무한대가됨에 따라 표준화 된 표본 평균의 분포 또는 한계의 합계). 는 가 아닙니다 . 당신이보고있는 것 (유한 샘플의 정규성에 대한 접근 방식)은 CLT의 결과가 아니라 관련 결과입니다. n n=5n
Glen_b-복지국 Monica

3
@ oemb1905 n = 30은 OP가 제안하는 일종의 왜도에 충분하지 않습니다. 과 같은 값의 오염이 얼마나 드문 지에 따라 법선이 합리적인 근사치처럼 보이기 전에 n = 60 또는 n = 100 이상이 필요할 수 있습니다. 오염이 약 7 % 인 경우 (질문과 같이) n = 120은 여전히 ​​약간 비뚤어집니다107
Glen_b-복지국 Monica

2
가능한 동전
Sextus Empiricus

(1,100,000, 1,900,000)과 같은 간격 값은 절대 도달하지 않을 것이라고 생각하십시오. 그러나 당신이 그 금액을 적당량 사용하면 효과가 있습니다!
David

답변:


18

중심 한계 정리가 말한 것을 정확하게 기억합시다.

경우 독립적이고 동일하게 (공유), 평균 확률 변수 분산되어 및 표준 편차 후, 는 표준 정규 분포 (*) 으로 분포가 수렴됩니다 .X1,X2,,XkμσX1+X2++XkkσkN(0,1)

이것은 종종 "비공식"형식으로 사용됩니다.

경우 (공유) 평균이 독립적이고 동일하게 분산 된 랜덤 변수 및 표준 편차 다음 "분포"는 표준 정규 분포에 수렴 .X1,X2,,XkμσX1+X2++XkN(kμ,kσ)

"제한"분포 변경 때문에 CLT 형식을 수학적으로 정확하게 만드는 좋은 방법은 없지만 실무에 유용합니다.

우리가 다음과 같은 정적 숫자 목록을 가질 때

4,3,5,6,5,3,10000000,2,5,4,3,6,5

우리는이리스트에서 무작위로 숫자를 가져 와서 샘플링하고 있습니다. 샘플링 기법이이 두 가지 독립 조건을 충족시키고 동일하게 분포되어 있는지 확인해야하는 중심 한계 정리를 적용합니다.

  • 동일하게 배포해도 문제가되지 않습니다. 목록의 각 숫자를 동일하게 선택할 수 있습니다.
  • 독립적은 더 미묘하며 샘플링 체계에 달려 있습니다. 교체하지 않고 샘플링하는 경우 독립성을 위반합니다. 중심 한계 정리가 적용되는 것은 교체를 통해 표본 추출하는 경우에만 해당됩니다.

따라서 계획에서 교체 샘플링 과 함께 사용 하는 경우 중앙 한계 정리를 적용 할 수 있어야합니다. 동시에 샘플의 크기가 5 인 경우 샘플에서 매우 큰 숫자를 선택했는지 또는 선택하지 않은지에 따라 매우 다른 동작을 보게됩니다.

문질러 무엇입니까? 음, 속도 우리의 인구가 매우 왜곡 경우 정규 분포에 수렴은 우리가 특히로부터 샘플이 제공되고 인구의 형태에 매우 의존, 우리는 정상으로 수렴하는 데 시간이 오래 걸릴 것으로 예상된다. 이 예에서는 이러한 경우이므로 크기 5의 표본이 정상적인 구조를 표시하기에 충분하다고 기 대해서는 안됩니다.

세 정규 분포

위의 5, 100 및 1000 크기의 샘플에 대해 (대체 샘플링으로) 실험을 반복했습니다. 매우 큰 샘플의 경우 정상적인 구조가 나타납니다.

(*) 유한 평균 및 분산과 같은 일부 기술적 조건이 필요합니다. 목록 예제의 샘플링에서 사실임을 쉽게 확인할 수 있습니다.


매우 빠르고 완벽한 답변을 주셔서 감사합니다. CLT에 대한 아이디어, 교체, 데이터 분배가 왜곡 될 때 더 많은 샘플이 필요합니다. 지금은 매우 분명합니다. 내가 원래 의문의 의도는 언급 한 바와 같이 하나의 큰 숫자가 교체없이 포함되고 샘플링 수가 고정 된 경우입니다. 그것은 매우 다르게 행동하기 때문에 많은 수의 표본을 채취하고 표본을 채취하지 않은 경우 "조건부"CLT를 고려해야합니다. 이에 대한 연구 나 사전 작업이 있는지 궁금합니다. 그러나 어쨌든 감사합니다.
JimSD

여기에 적용 가능한지 모르지만 왜곡에 의해 규제되는 CLT 수렴 정리 en.wikipedia.org/wiki/Berry%E2%80%93Esseen_theorem
seanv507

@MatthewDrury의 CLT 정의에 약간 혼란 스럽습니다. 는 정규 분포가 아니라 LLN에 의해 ​​상수로 수렴 한다고 생각합니다 . Xkk
JTH

1
@ seanv507 왜도보다는 절대 세 번째 순간; 둘은 관련되어 있지만 베리-에센이 이 왜도가 아니기 때문에 0 이 아님ρ / σ 3|Fn(x)Φ(x)|ρ/σ3
Glen_b-복지국 Monica

1
@Glen_b Yah, 나는 조금 비공식적이지만 (아마도 안되었을 것입니다), 오늘 오후에 약간 혼란스러워서 고칠 수 있습니다.
Matthew Drury

12

일반적으로 CLT 근사값이 양호하려면 각 표본의 크기가 보다 커야 합니다. 경험 법칙은 크기가 이상인 표본입니다 . 그러나 첫 번째 예에서는 가 괜찮습니다.5305

pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

여기에 이미지 설명을 입력하십시오

두 번째 예에서는 모집단 분포의 모양으로 인해 (한 가지로 너무 많이 기울어졌습니다. guyGlen_b 벨로우즈 의 의견을 읽으십시오 ) 크기가 샘플조차도 분포의 근사치가 아닙니다. CLT를 사용한 표본 평균.30

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

여기에 이미지 설명을 입력하십시오

그러나이 두 번째 모집단에서는 크기 표본 이 적합합니다.100

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

여기에 이미지 설명을 입력하십시오


3
문제가되는 차이가 아닙니다. 엄격한 제어를 얻는 한 가지 방법은 Berry-Esseen 정리에서와 같이 세 번째 중심 모멘트와 표준 편차 큐브의 비율을 사용하는 것입니다.
남자

완전한. 추가되었습니다. Tks.
Zen

1
코드로 빠르고 시각적이며 완벽한 답변을 주셔서 감사합니다. 나는 그것이 얼마나 빨랐는지 매우 놀랐다! 적절한 샘플링 수를 알지 못했습니다. 샘플링 횟수가 고정 된 경우를 생각하고있었습니다.
JimSD

@ guy, 감사합니다. 나는 "Berry-Esseen 정리에 입각 한 표준 편차에 대한 세 번째 중심 모멘트의 비율" 이라는 아이디어를 몰랐습니다 . 분포에 특이 치가 하나 포함 된 경우를 다루고 싶습니다. 그리고 여러분이 언급 한 것처럼 이런 종류의 분포를 참조 할 수 있습니다. 그러한 배포를 다루는 이전의 작업을 알고 있다면 알려주십시오. 감사합니다.
JimSD

2
@guy the Berry Esseen 정리는 평균 대한 세 번째 순간이 아니라 평균 에 대한 세 번째 절대 모멘트입니다 . 이것은 왜도뿐만 아니라 두꺼운 꼬리에도 반응합니다. μ 3 = E [ ( X μ ) 3 ]ρ=E[|Xμ|3]μ3=E[(Xμ)3]
Glen_b-복지국 Monica

7

복잡한 누적 생성 함수를 사용하여 왜 모든 사람들이 왜 이것을 비난하고 있는지 설명하고 싶습니다 .

샘플링하는 랜덤 변수를 . 여기서 는 평균이고 는 표준 편차이므로 는 평균 과 분산 입니다. 의 누적 생성 함수 는 입니다. 여기서 은 의 스큐를 나타냅니다 . 원래 변수 의 비스듬한 , 즉 로 작성할 수 있습니다. .μ+σZμσZ01Z12t2iγ16t3+o(t3)γ1Zκ3μ+σZγ1=σ3κ3

분포 의 표본의 합을 나누면 결과는 cgf정규 근사가 그래프가 제대로 보이도록 충분히 큰 에서 유효 하려면 충분히 큰 필요합니다 . 이 계산은 동기를 부여 합니다. 고려한 두 샘플의 값은 과 매우 다릅니다 .nZn

n(12(tn)2iγ16(tn)3)+o(t3)=12t2iγ16nt3+o(t3).
tnnγ12γ1


-1

짧은 대답은 중앙 한계 정리를 적용하기에 충분히 큰 표본이 ​​없다는 것입니다.


1
이것은 CLT가 문제의 첫 번째 데이터 세트에 대해 좋은 근사치를 제공한다는 관측에서 유효한 설명이 될 수 없다는 것은 분명합니다.
whuber

@ whuber : 정규 분포가 첫 번째 세트에서 5 샘플에 대해 합리적으로 좋은 근사치를 제공한다고 말하고 있다고 생각합니다. 합계에 대해 유한 한 수의 값 (대체없이 13 개의 가능한 값 및 대치 할 수있는 21 개의 값) 만 있기 때문에 5 개의 샘플이 많으면 근사값이 훨씬 나아지지 않으며 초기 근사값은 초기 패턴 ...
헨리

@whuber 첫 번째 세트의 분포가 치우친 것처럼 보이기 때문에 두 번째 세트의 5의 합계가 오른쪽으로 치우칠 것으로 예상되는 것보다 덜 극단적 인 방식으로 5의 합계도 비뚤어 질 것으로 예상됩니다. 왜도를 더욱 줄이려면 더 큰 표본 크기가 필요하다고 생각했을 것입니다.
Henry

1
@Henry 귀하의 의견에 감사드립니다. 나는이 특정 상황에 대해 언급하지 않았지만이 답변에 대한 논리에 대해서만 더 설명 할 수 있기를 희망했습니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.