주문 통계를 통해 추정값을 백분위 수로 수렴 표시


10

하자 에서 샘플링 IID 랜덤 변수들의 시퀀스 일 알파 안정된 분포 파라미터와 입니다. α = 1.5 ,X1,X2,,X3nα=1.5,β=0,c=1.0,μ=1.0

이제 시퀀스를 고려하십시오 . 여기서 , .Y1,Y2,,YnYj+1=X3j+1X3j+2X3j+31j=0,,n1

백분위 수 를 추정하고 싶습니다 .0.01

내 생각은 일종의 Monte-Carlo 시뮬레이션을 수행하는 것입니다.

l = 1;
while(l < max_iterations)
{
  Generate $X_1, X_2, \ldots, X_{3n}$ and compute $Y_1, Y_2, \ldots, Y_{n}$;
  Compute $0.01-$percentile of current repetition;
  Compute mean $0.01-$percentile of all the iterations performed;
  Compute variance of $0.01-$percentile of all the iterations performed;
  Calculate confidence interval for the estimate of the $0.01-$percentile;

  if(confidence interval is small enough)
    break;

}

샘플 모두의 평균 호출 백분위 수 계산 그들의 분산 에 대한 적절한 신뢰 구간을 계산하는 , I 리조트 중앙 제한 정리강력한 형식으로 :- μ N σ 2 n은 μ0.01μ^nσ^n2μ

하자 함께 IID 랜덤 변수들의 시퀀스 일 및 . 표본 평균을 . 그런 다음 에는 제한적인 표준 정규 분포가 있습니다 (예 : E [ X I ] = μ 0 < V [ X I ] = σ 2 < μ N = ( 1 / N ) Σ N = 1 X I ( μ N - μ ) / X1,X2,E[Xi]=μ0<V[Xi]=σ2<μ^n=(1/n)i=1nXiμ N -μ(μ^nμ)/σ2/n

μ^nμσ2/nnN(0,1).

그리고 Slutksy의 정리 fra

nμ^nμσ^n2nN(0,1).

그런 다음 대한 신뢰 구간 은 다음과 같습니다.μ(1α)×100%μ

z1-α/2(1-α/2)

Iα=[μ^nz1α/2σ^n2n,μ^n+z1α/2σ^n2n],
여기서 는 표준 정규 분포 의 -quantile입니다.z1α/2(1α/2)

질문 :

1) 내 접근 방식이 맞습니까? CLT의 적용을 어떻게 정당화 할 수 있습니까? 분산이 유한함을 어떻게 나타낼 수 있습니까? ( 의 분산을 살펴 합니까? 유한하다고 생각하지 않기 때문에 ...)Yj

2) 어떻게 샘플 모두의 평균 있음을 보여줄 수 백분위가의 진정한 가치에 수렴을 계산 백분위? (주문 통계를 사용해야하지만 어떻게 진행해야할지 잘 모르겠습니다. 참조는 감사합니다.)0.01 ~0.010.01


3
stats.stackexchange.com/questions/45124의 샘플 중앙값에 적용되는 모든 방법 은 다른 백분위 수에도 적용됩니다. 실제로, 귀하의 질문은 그 질문과 동일하지만 단지 50 번째 백분위 수를 1 번째 (또는 0.01?) 백분위 수로 대체합니다.
whuber

@ whuber, 그 질문에 대한 당신의 대답은 매우 좋습니다. 그러나 글렌 _b (Glen_b)는 자신의 게시물 끝에 (허용 된 답변) CLT가 킥오프하지 않기 때문에 대략적인 정규성은 "극단적 인 Quantile에는 적용되지 않는다"고 말합니다 (Z의 평균은 무의식적으로 정상적이지 않습니다) ). 극단적 인 가치에 대해서는 다른 이론이 필요합니다. " 이 진술에 대해 어떻게 걱정해야합니까?
Maya

2
나는 그가 극단적 인 Quantiles를 의미하는 것이 아니라 극단 자체 만을 의미한다고 생각 합니다. (실제로 그는 같은 문장의 끝에서 타락을“극단 값”이라고 언급하여 수정했습니다.) 구별은 0.01 백분위 수 (최저값 1/10000)를 나타내는 극도의 분위수입니다. 샘플에서 점점 더 많은 데이터가 여전히 그 아래로 떨어지고 그 백분위 수 이상으로 더 많이 떨어지기 때문에 분포)는 한계에서 안정화 될 것입니다. 으로 극단 (예를 들면, 최대 또는 최소 등)이 더 이상없는 경우이다.
whuber

이것은 경험적 프로세스 이론을 사용하여 일반적으로 해결해야하는 문제입니다. 훈련 수준에 대한 도움이 도움이 될 것입니다.
AdamO

답변:


2

의 분산은 유한하지 않습니다. Y 알파 안정한 변수 때문이다 와 (a Holtzmark 분포 ) 유한 기대 있는가 하지만 분산은 무한하다. 에 유한 분산 가 있다면 의 독립성 과 분산 정의를 이용하여 계산할 수 있습니다α = 3 / 2 μ Y σ 2 X의 난을Xα=3/2μYσ2Xi

σ2=Var(Y)=E(Y2)E(Y)2=E(X12X22X32)E(X1X2X3)2=E(X2)3(E(X)3)2=(Var(X)+E(X)2)3μ6=(Var(X)+μ2)3μ6.

의이 3 차 방정식에는 하나 이상의 실제 해가 있으며 최대 3 개의 해는 있지만 더 이상은 없습니다. 는 유한하지만 암시 하지 않습니다. 이 모순은 그 주장을 증명합니다.Var ( X )Var(X)Var(X)


두 번째 질문으로 넘어 갑시다.

샘플이 커짐에 따라 모든 샘플 Quantile은 실제 Quantile로 수렴됩니다. 다음 몇 단락은이 일반적인 요점을 증명합니다.

관련 확률을 (또는 과 사이의 다른 값 )로 설정하십시오. 가 Quantile이 되도록 분포 함수에 를 씁니다 .0 1 F Z의 Q = F - 1 ( Q ) Q 번째q=0.0101FZq=F1(q)qth

우리는 (양자 함수)가 연속적 이라고 가정해야합니다 . 이것은 모든 대해 확률 및 가 있음을 보장 합니다. ϵ > 0 q < q q + > qF1ϵ>0q<qq+>q

F(Zqϵ)=q,F(Zq+ϵ)=q+,

그리고 과 같이 간격 의 한계 는 입니다.[ q , q + ] { q }ϵ0[q,q+]{q}

크기가 iid 샘플을 고려하십시오 . 이 표본에서 보다 작은 요소의 개수는 이항 분포 갖습니다. 각 요소는 독립적으로 확률 가 보다 작기 때문 입니다. 중심 한계 정리 (일반적인 것!)는 충분히 큰 에 대해 보다 작은 요소의 수는 평균 및 분산 를 갖는 정규 분포에 의해 주어진다는 것을 의미 합니다. 임의로 좋은 근사치). 표준 정규 분포의 CDF를 . 이 수량이 초과 할Z의 Q - ( Q - , N ) Q - Z의 Q - N Z의 Q - N Q - N (Q) - ( 1 - Q - ) Φ N QnZq(q,n)qZqnZqnqnq(1q)Φnq 그러므로 임의로

1Φ(nqnqnq(1q))=1Φ(nqqq(1q)).

오른쪽의 에 대한 인수 는 의 고정 배수 이므로 이 증가 함에 따라 임의로 커집니다 . 이후 CDF, 그 값은 임의로 확대 접근법 이 확률의 한계 값이 0 보여준다.Φ nΦ1nnΦ1

즉 : 한계에, 그 경우 거의 확실하다 샘플 요소가 이하보다 . 비슷한 주장은 샘플 요소의 가 보다 크지 않다는 것을 거의 증명합니다 . 함께, 이것은 충분히 큰 샘플 Quantile이 사이에있을 가능성이 매우 큽니다 .Z q - n q Z q + q Z q - ϵ Z q + ϵnqZqnqZq+qZqϵZq+ϵ

이것이 시뮬레이션이 작동한다는 것을 알기 위해 필요한 전부입니다. 원하는 정도의 정확도 및 신뢰 수준 선택할 수 있으며 충분히 큰 표본 크기 에 대해 해당 표본에서 에 가장 가까운 차수 통계량 은 이내 일 가능성이 있음 을 있습니다. 진정한 Quantile 의 .1 α n n q 1 α ϵ Z qϵ1αnnq1αϵZq


시뮬레이션이 작동한다는 것을 확립하면 나머지는 쉽습니다. 이항 분포의 한계에서 신뢰 한계를 얻은 다음 역변환 할 수 있습니다. 더 자세한 설명 ( 분위수에 대한 것이지만 모든 분위수에 일반화)은 샘플 중앙값에 대한 중앙 한계 정리 의 답에서 찾을 수 있습니다 .q=0.50

그림 : 1000 회 반복에서 n = 300 인 Y 0.01 Quantile의 히스토그램

의 분위수 는 음수입니다. 샘플링 분포가 크게 왜곡됩니다. 왜곡을 줄이기 위해이 그림은 값의 시뮬레이션 된 1,000 개 표본의 로그에 대한 히스토그램을 보여줍니다 .Y n = 300 Yq=0.01Yn=300Y

library(stabledist)
n <- 3e2
q <- 0.01
n.sim <- 1e3

Y.q <- replicate(n.sim, {
  Y <- apply(matrix(rstable(3*n, 3/2, 0, 1, 1), nrow=3), 2, prod) - 1
  log(-quantile(Y, 0.01))
})
m <- median(-exp(Y.q))
hist(Y.q, freq=FALSE, 
     main=paste("Histogram of the", q, "quantile of Y for", n.sim, "iterations" ),
     xlab="Log(-Y_q)",
     sub=paste("Median is", signif(m, 4), 
               "Negative log is", signif(log(-m), 4)),
     cex.sub=0.8)
abline(v=log(-m), col="Red", lwd=2)
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.