누군가 파레토 분포와 중앙 한계 정리 사이의 관계에 대한 간단한 설명을 제공 할 수 있습니까 (예 : 적용됩니까? 왜 / 왜 안됩니까?)? 다음 진술을 이해하려고합니다.
누군가 파레토 분포와 중앙 한계 정리 사이의 관계에 대한 간단한 설명을 제공 할 수 있습니까 (예 : 적용됩니까? 왜 / 왜 안됩니까?)? 다음 진술을 이해하려고합니다.
답변:
이 문장은 일반적으로 사실이 아닙니다. 파레토 분포 는 모양 매개 변수 ( 링크의 )가 1보다 큰 경우 유한 평균을 갖습니다 .
평균과 분산이 모두 존재하는 경우 ( ) 중앙 제한 정리 의 일반적인 형식 ( 예 : 클래식, Lyapunov, Lindeberg)이 적용됩니다
여기서 고전적인 중앙 제한 정리에 대한 설명을 참조 하십시오
인용 된 것은 일종의 이상한데, 왜냐하면 언급 된 형태의 중심 한계 정리는 표본 평균 자체에는 적용되지 않지만 표준화 된 평균 (그리고 우리가 평균과 분산이있는 것에 적용하려고하면)이기 때문입니다. 분자와 분모에는 유한 한계가없는 것들이 포함되기 때문에 우리가 실제로 말하는 것에 대해 매우 신중하게 설명해야합니다.
그럼에도 불구하고 (중앙 한계 이론에 대해 정확하게 표현되지 않았음에도 불구하고) 그것은 근본적인 요점을 가지고 있습니다. 샘플 평균은 모집단 평균에 수렴 하지 않습니다 ( 많은 숫자 의 약한 법칙은 평균을 정의하는 적분이 유한하지 않기 때문에).
kjetil이 의견에서 올바로 지적했듯이, 수렴 속도가 끔찍한 것을 피하려면 (즉, 실제로 사용할 수 있으려면) "얼마나 멀리"/ "얼마나 빨리"에 대한 일종의 경계가 필요합니다. 우리는 정상적인 근사치에서 실제적인 사용을 원한다면 대한 적절한 근사치를 갖는 것은 아무 소용이 없습니다 .
중심 한계 정리는 목적지에 관한 것이지만 우리가 얼마나 빨리 도착하는지에 대해서는 아무 것도 알려주지 않습니다. 그러나 (특히 의미에서) 비율을 묶는 베리-에센 정리 정리 와 같은 결과가 있습니다. Berry-Esseen의 경우, 세 번째 절대 모멘트 ( )의 관점에서 표준화 된 평균의 분포 함수와 표준 정규 cdf 사이의 최대 거리를 경계로합니다 .
따라서 파레토의 경우 인 경우 적어도 근사치가 얼마나 나쁜지 , 얼마나 빨리 도착하는지 에 대한 경계를 가질 수 있습니다 . 반면에, cdfs의 차이를 제한하는 것이 반드시 "실제"일 필요는 없습니다. 관심있는 것은 꼬리 영역의 차이와 관련이 없을 수도 있습니다. 그럼에도 불구하고, 그것은 무언가입니다 (적어도 어떤 상황에서는 cdf가 더 직접적으로 유용합니다).
CLT에 대한 가정이 충족 된 경우에도 CLT (Central Limit Theorem)의 근사값이 파레토 분포에 얼마나 나쁜지를 보여주는 답을 추가 할 것입니다. 유한 분산이 있어야한다는 가정하에 파레토의 경우 의미합니다 . 왜 그런지에 대한 더 이론적 인 토론은 여기 내 대답을 참조하십시오 : 유한 및 무한 분산의 차이점은 무엇입니까?
분산이 "거의 존재하지 않도록" 매개 변수 을 사용하여 파레토 분포의 데이터를 시뮬레이션합니다 . 차이를 보려면 로 시뮬레이션을 다시 실행 하십시오! R 코드는 다음과 같습니다.
### Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) # for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1 # variance just barely exist
E <- function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))
R <- 10000
e <- E(alpha)
sigma <- sqrt(VAR(alpha))
sim <- function(n) {
replicate(R, {x <- rpareto1(n,alpha,1)
x <- x-e
mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...
### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:
sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)
### Now we plot the histograms:
hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)
그리고 여기 음모가 있습니다 :
표본 크기 일지라도 정규 근사치와는 거리가 멀다는 것을 알 수 있습니다. 실증적 분산이 실제 이론적 분산 보다 훨씬 낮다는 것은 우리가 표시하지 않는 오른쪽 끝 꼬리의 분포 부분에서 분산에 크게 기여하기 때문입니다. 대부분의 샘플. 분산이 "거의 존재하지 않을 때"항상 예상됩니다.. 그것에 대해 생각하는 실용적인 방법은 다음과 같습니다. 파레토 분포는 종종 소득 분포 (또는 부)를 모형화하기 위해 제안됩니다. 소득 (또는 부)에 대한 기대는 수십억에 달하는 매우 큰 기여를 할 것입니다. 실제 샘플 크기로 샘플링하면 샘플에 수십억을 포함시킬 가능성이 매우 적습니다!
나는 이미 답변을 받았지만 "레이 사람 설명"에 대해 약간의 기술이 있다고 생각하므로 더 직관적 인 무언가를 시도 할 것입니다 (방정식으로 시작).
밀도의 평균 다음과 같이 정의됩니다.
그런 다음 중심 한계 정리는 경험적 평균 사이의 거리 분포를 설정합니다. 그리고 평균 분산의 함수로서 과 (비대칭 적으로 ). 경험적 의미를 보자 수의 함수로 동작 가우스 밀도 :
N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()
이것은 전형적인 실현이며, 표본 평균은 밀도 평균에 상당히 적절히 수렴됩니다 (중앙 한계 정리에 의해 주어진 평균으로). 평균이없는 파레토 분포에 대해서도 동일하게하자 (rnorm (N, 1,1) 대체; pareto (N, 1.1,1);)
이것은 또한 전형적인 시뮬레이션이며, 때때로, 표본 평균은 제품에서 적분 공식을 사용하여 설명 된 것처럼 단순히 간단하게 왜곡됩니다. 높은 값의 빈도 사실을 보상하기에 충분히 작지 않습니다. 높다. 따라서 평균이 존재하지 않고 표본 평균이 전형적인 값으로 수렴하지 않으며 중앙 한계 정리는 아무 말도하지 않습니다.
마지막으로 중심 한계 정리는 경험적 평균, 평균, 표본 크기와 관련이 있습니다. 그리고 분산. 분산 또한 존재해야합니다 (자세한 내용은 kjetil b halvorsen 답변 참조).