중앙 한계 정리 및 파레토 분포


10

답변:


15

이 문장은 일반적으로 사실이 아닙니다. 파레토 분포 는 모양 매개 변수 ( 링크의 )가 1보다 큰 경우 유한 평균을 갖습니다 .α

평균과 분산이 모두 존재하는 경우 ( ) 중앙 제한 정리일반적인 형식 ( 예 : 클래식, Lyapunov, Lindeberg)이 적용됩니다α>2

여기서 고전적인 중앙 제한 정리에 대한 설명을 참조 하십시오

인용 된 것은 일종의 이상한데, 왜냐하면 언급 된 형태의 중심 한계 정리는 표본 평균 자체에는 적용되지 않지만 표준화 된 평균 (그리고 우리가 평균과 분산이있는 것에 적용하려고하면)이기 때문입니다. 분자와 분모에는 유한 한계가없는 것들이 포함되기 때문에 우리가 실제로 말하는 것에 대해 매우 신중하게 설명해야합니다.

그럼에도 불구하고 (중앙 한계 이론에 대해 정확하게 표현되지 않았음에도 불구하고) 그것은 근본적인 요점을 가지고 있습니다. 샘플 평균은 모집단 평균에 수렴 하지 않습니다 ( 많은 숫자약한 법칙은 평균을 정의하는 적분이 유한하지 않기 때문에).


kjetil이 의견에서 올바로 지적했듯이, 수렴 속도가 끔찍한 것을 피하려면 (즉, 실제로 사용할 수 있으려면) "얼마나 멀리"/ "얼마나 빨리"에 대한 일종의 경계가 필요합니다. 우리는 정상적인 근사치에서 실제적인 사용을 원한다면 대한 적절한 근사치를 갖는 것은 아무 소용이 없습니다 .n>1010100

중심 한계 정리는 목적지에 관한 것이지만 우리가 얼마나 빨리 도착하는지에 대해서는 아무 것도 알려주지 않습니다. 그러나 (특히 의미에서) 비율을 묶는 베리-에센 정리 정리 와 같은 결과가 있습니다. Berry-Esseen의 경우, 세 번째 절대 모멘트 ( )의 관점에서 표준화 된 평균의 분포 함수와 표준 정규 cdf 사이의 최대 거리를 경계로합니다 .E(|X|3)

따라서 파레토의 경우 인 경우 적어도 근사치가 얼마나 나쁜지 , 얼마나 빨리 도착하는지 에 대한 경계를 가질 수 있습니다 . 반면에, cdfs의 차이를 제한하는 것이 반드시 "실제"일 필요는 없습니다. 관심있는 것은 꼬리 영역의 차이와 관련이 없을 수도 있습니다. 그럼에도 불구하고, 그것은 무언가입니다 (적어도 어떤 상황에서는 cdf가 더 직접적으로 유용합니다).α>3n


2
그러나 분산이 거의 존재하지 않는 경우, 즉 이지만 매우 가깝다면, 중심 제한 정리는 원칙적으로 적용하는 동안 매우 나쁜 근사치를 초래할 수 있습니다. 근사 품질을 제어하려면 Berry-Esseen 정리와 같은 것이 필요합니다. 여기에는 세 번째 순간, 즉 합니다. α>2α>3
kjetil b halvorsen

@kjetil은 너무나; 실제로 수렴이 쓸모없이 느려질 수 있으므로 두 번째 순간 이상이 필요합니다.
Glen_b-복지 주 모니카

1
네, 보여 드리기 위해 답을 추가하겠습니다!
kjetil b halvorsen

2
중심 한계 정리를 따르지 않는 일부 분포는 안정적인 법칙으로 수렴되도록 표준화 될 수 있습니다.
Michael R. Chernick

여기서 좋은 토론입니다. Wish stackexchange 사람들의 답변 / 의견을 따르는 방법이있었습니다;)
서찬호

9

CLT에 대한 가정이 충족 된 경우에도 CLT (Central Limit Theorem)의 근사값이 파레토 분포에 얼마나 나쁜지를 보여주는 답을 추가 할 것입니다. 유한 분산이 있어야한다는 가정하에 파레토의 경우 의미합니다 . 왜 그런지에 대한 더 이론적 인 토론은 여기 내 대답을 참조하십시오 : 유한 및 무한 분산의 차이점은 무엇입니까?α>2

분산이 "거의 존재하지 않도록" 매개 변수 을 사용하여 파레토 분포의 데이터를 시뮬레이션합니다 . 차이를 보려면 로 시뮬레이션을 다시 실행 하십시오! R 코드는 다음과 같습니다.α=2.1α=3.1

###  Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) #  for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1  #  variance just barely exist
E <-  function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))

R <- 10000
e <-  E(alpha)
sigma  <-  sqrt(VAR(alpha))
sim <-  function(n) {
    replicate(R, {x <- rpareto1(n,alpha,1)
        x <- x-e
        mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...

### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:

sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)

### Now we plot the histograms:
    hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)

그리고 여기 음모가 있습니다 :

모의 파레토 의미, 히스토그램

표본 크기 일지라도 정규 근사치와는 거리가 멀다는 것을 알 수 있습니다. 실증적 분산이 실제 이론적 분산 보다 훨씬 낮다는 것은 우리가 표시하지 않는 오른쪽 끝 꼬리의 분포 부분에서 분산에 크게 기여하기 때문입니다. 대부분의 샘플. 분산이 "거의 존재하지 않을 때"항상 예상됩니다.n=10000σ2=1. 그것에 대해 생각하는 실용적인 방법은 다음과 같습니다. 파레토 분포는 종종 소득 분포 (또는 부)를 모형화하기 위해 제안됩니다. 소득 (또는 부)에 대한 기대는 수십억에 달하는 매우 큰 기여를 할 것입니다. 실제 샘플 크기로 샘플링하면 샘플에 수십억을 포함시킬 가능성이 매우 적습니다!


3

나는 이미 답변을 받았지만 "레이 사람 설명"에 대해 약간의 기술이 있다고 생각하므로 더 직관적 인 무언가를 시도 할 것입니다 (방정식으로 시작).

밀도의 평균 p 다음과 같이 정의됩니다.

μ=엑스(엑스)엑스
엄청나게 말하면, 평균은 "합계 엑스에서 밀도 사이의 제품 엑스엑스그 자체. 언제엑스 밀도를 무한대로하는 경향이있다 (엑스) 제품이 충분히 사라질 것 엑스(엑스)무한대로 가지 않습니다 (결과로 합계도). 언제(엑스) 충분히 사라지지 않고, 제품은 무한대로되고, 적분은 무한대로되며, μ 존재하지 않으며, 마지막으로 의미가 없습니다. 이것은 특정 파라미터 값에 대한 파레토의 경우입니다.

그런 다음 중심 한계 정리는 경험적 평균 사이의 거리 분포를 설정합니다. 엑스¯=1나는엑스나는 그리고 평균 μ 분산의 함수로서 (비대칭 적으로 ). 경험적 의미를 보자엑스¯ 수의 함수로 동작 가우스 밀도 :

N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()

여기에 이미지 설명을 입력하십시오

이것은 전형적인 실현이며, 표본 평균은 밀도 평균에 상당히 적절히 수렴됩니다 (중앙 한계 정리에 의해 주어진 평균으로). 평균이없는 파레토 분포에 대해서도 동일하게하자 (rnorm (N, 1,1) 대체; pareto (N, 1.1,1);)

여기에 이미지 설명을 입력하십시오

이것은 또한 전형적인 시뮬레이션이며, 때때로, 표본 평균은 제품에서 적분 공식을 사용하여 설명 된 것처럼 단순히 간단하게 왜곡됩니다. (엑스)엑스높은 값의 빈도 엑스 사실을 보상하기에 충분히 작지 않습니다. 엑스높다. 따라서 평균이 존재하지 않고 표본 평균이 전형적인 값으로 수렴하지 않으며 중앙 한계 정리는 아무 말도하지 않습니다.

마지막으로 중심 한계 정리는 경험적 평균, 평균, 표본 크기와 관련이 있습니다. 그리고 분산. 분산(엑스μ)2(엑스)엑스 또한 존재해야합니다 (자세한 내용은 kjetil b halvorsen 답변 참조).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.